Vibe coding – hva betyr det for testing?

Vibe coding er allerede en realitet i bransjen, men gir store kvalitetsutfordringer. QA-rollen blir mer kritisk enn noen gang, og team som lykkes vil være de som tilpasser seg, lærer nye ferdigheter og tar i bruk nye verktøy og metoder for å sikre kvalitet i en AI-drevet utviklingshverdag. Chao Tan, fagansvarlig for fagområdet «Kunstig intelligens» i Testify, har skrevet denne interessante artikkelen om et høyaktuelt tema.

Vibe coding: Et paradigmeskifte i programvareutvikling

Da Googles administrerende direktør annonserte at over 30 % av deres kode nå er AI-generert [1], markerte det et vendepunkt i programvareutvikling. Amazon rapporterer at de har spart tilsvarende 4 500 utvikler-år med hjelp av AI[2]. Microsoft tilskriver 20–30 % av kodebasen sin til AI-generering[3]. Dette er ikke eksperimenter – det er produksjonsvirkelighet i stor skala.

Dette skiftet har fått et navn: vibe coding. Begrepet ble introdusert av AI-forskeren Andrej Karpathy i februar 2025[4], og beskriver en grunnleggende endring i hvordan programvare blir bygget. I stedet for å skrive kode linje for linje, beskriver utviklere nå hva de ønsker i naturlig språk – og lar AI håndtere implementasjonsdetaljene.

Men her er det avgjørende spørsmålet alle QA-fagfolk må stille seg: Hvis maskiner skriver mer av koden vår – hvem tester den, og hvordan?


Hva er Vibe Coding?

Vibe coding representerer et skifte fra tradisjonell programmering til en mer samtalebasert, målorientert utviklingsprosess. I stedet for å skrive syntaks, beskriver utviklere ønsket funksjonalitet i klartekst – for eksempel: «Lag et innloggingsskjema med e-postvalidering» – og AI-verktøy som GitHub Copilot, Cursor eller Claude oversetter disse instruksjonene til kjørbar kode.

Den typiske prosessen følger et iterativt mønster:

  1. Prompt – Beskriv målet ditt («Bygg et REST API for brukerstyring»).

  2. Generer – AI produserer en første implementasjon.

  3. Kjør – Test koden og se resultatet.

  4. Forbedre – Gi tilbakemeldinger («Legg til rate limiting og autentisering»).

  5. Gjenta – Fortsett til funksjonaliteten er som ønsket.

Feil blir ofte løst ved å lime inn feilmeldinger tilbake til AI, fremfor tradisjonell debugging. Mennesket fokuserer på høynivåkrav og brukeropplevelse, mens AI håndterer syntaks, standardkode og detaljer.


Nåværende situasjon: Utbredelse i stor skala

Tallene viser hvor raskt AI-assistert utvikling har blitt vanlig:

  • Utvikleradopsjon: 97 % av utviklere har brukt AI-kodeverktøy profesjonelt eller privat, og 76 % bruker dem aktivt eller planlegger å gjøre det[5]. Over halvparten av profesjonelle utviklere bruker AI-verktøy daglig[6]. Mellom 60–73 % rapporterer målbare forbedringer i både kodekvalitet og effektivitet[5].

  • Industriell påvirkning: Hos Google er over 30 % av ny kode AI-generert[1]. Amazon har spart tusenvis av årsverk[2]. Microsoft rapporterer at 20–30 % av koden deres er AI-generert[3].

  • Verktøyevolusjon: Økosystemet utvikler seg raskt, med spesialiserte modeller både innen proprietære og åpne løsninger. OpenAI’s GPT-4 Code Interpreter, Anthropic’s Claude (kode-modus), Code Llama og DeepSeek-Coder er eksempler på verktøy som matcher eller overgår menneskelige basisnivåer på standardoppgaver som HumanEval.


Den skjulte kostnaden: Kvalitetsutfordringer med AI-generert kode

AI akselererer utvikling – men flere uavhengige studier peker på gjentatte kvalitetsproblemer som QA-team må forstå:

  1. Sikkerhetssårbarheter – 45 % av AI-generert kode inneholder kjente OWASP Top 10-sårbarheter. Utviklere blir ofte mer selvsikre på koden, selv når den er usikker.

  2. Teknisk gjeld – Mengden duplisert kode har økt dramatisk, mens refaktorering har falt betydelig, noe som øker vedlikeholdskostnadene.

  3. Kodeendringer (“churn”) – Andelen kode som endres eller fjernes innen to uker har økt markant, noe som reduserer faktisk produktivitet.

  4. Leveranseforringelse – Flere bruker tid på debugging og sikkerhetsfikser, mens leveransestabilitet synker.

  5. Kunnskapsgjeld – Team ender med kode ingen fullt ut forstår, og blir avhengige av AI for både skriving og forståelse.

  6. Ikke-deterministisk atferd – Samme prompt kan gi forskjellig kode, noe som kompliserer regresjonstesting og reproduserbarhet.

Konklusjon: AI øker kvantiteten, men kvalitet – målt i pålitelighet, sikkerhet og langsiktig leveranseevne – kan lide.


Testutfordringen: Hvorfor QA blir enda viktigere

Når AI endrer hvordan kode skrives, endrer det også hvordan den må testes. Tradisjonelle testmetoder er ikke tilstrekkelige for AI-generert kode.

  • Tekniske testutfordringer:
    • Testorakel-problemet – Hvordan verifisere riktig funksjon når kravene er uklare eller koden ikke er fullt forstått?
    • Falske positive tester – AI-genererte tester kan være skjeve mot “happy path” og ikke dekke kanttilfeller.
  • Prosessutfordringer:
    • Raskere utviklingssykluser enn QA kan følge opp.
    • AI-kode genereres ofte uten kontekst, som skaper integrasjonsproblemer.
  • Organisatoriske utfordringer:
    • Lav tillit til AI-kode gir stort verifikasjonsbehov.
    • Eksisterende testverktøy takler ikke alltid AI-genererte mønstre.

Strategiske tilnærminger for QA-team

For å opprettholde kvalitet i AI-æraen bør QA-team:

  1. Etablere AI-spesifikke kodegjennomganger – Kombiner statisk analyse med målrettet manuell kontroll av kritiske områder.

  2. Bruke metamorfisk testing – Test forholdet mellom input og output fremfor faste forventede resultater, for å håndtere ikke-deterministisk kode.

  3. Innføre kaos-testing – Simuler feil for å finne svakheter AI-kode ofte overser.

  4. Satse på observabilitet først – Følg opp faktisk atferd i drift, ikke bare dekningsgrad.

  5. Bygge kontinuerlige tilbakemeldingssløyfer – Analyser hvilke prompts som gir flest feil og forbedre dem.

  6. Integrere og automatisere verktøy – Bruk AI-støttede testverktøy, men med tydelig menneskelig overvåkning.


Fremtiden for testing

Vibe coding er ikke en forbigående trend – det er en ny virkelighet. For QA-fagfolk betyr det:

  • Tradisjonelle teststrategier må oppdateres.

  • QA blir mer strategisk og sentral i verdikjeden.

  • Menneskelig kontroll er avgjørende for produksjonskvalitet.


Kort oppsummert

Vibe coding er ikke en forbigående trend – det er en ny virkelighet. For QA-fagfolk betyr det:

  • Tradisjonelle teststrategier må oppdateres.

  • QA blir mer strategisk og sentral i verdikjeden.

  • Menneskelig kontroll er avgjørende for produksjonskvalitet.


Referanser

[1]: Pichai, S. (2025, April 24). Alphabet Q1 2025 Earnings Call. Google reports over 30% of new code is AI-generated. Source

[2]: Jassy, A. (2024, August 22). Amazon Q Development Update. Amazon saves 4,500 developer-years through AI assistant. Source

[3]: Nadella, S. (2025, April 29). Microsoft at LlamaCon. 20-30% of Microsoft code is AI-generated. Source

[4]: Karpathy, A. (2025, February 6). Introduction of «Vibe Coding». Source

[5]: GitHub. (2024). AI in Software Development Survey. 97% adoption rate among 2,000 enterprise developers. Source

[6]: Stack Overflow. (2025). Developer Survey. 76% of developers using or planning to use AI tools. Source

[7]: Sacra. (2024, December). Cursor Growth Analysis. Cursor reaches $100M ARR in 12 months. Source

[8]: Contrary Research. (2025, April). Windsurf Business Report. Codeium/Windsurf reaches $100M ARR. Source

[9]: Veracode. (2025, July). 2025 GenAI Code Security Report. Testing 100+ AI models across multiple languages. Source

[10]: Perry, N., et al. (2022). Stanford Study on AI Code Generation Security. Developers using AI more likely to write insecure code. Source

[11]: GitClear. (2025). AI Copilot Code Quality Research. Analysis of 211 million lines of code from 2020-2024. Source

[12]: Harding, B. (2025). As quoted in How AI Generated Code Accelerates Technical Debt. LeadDev. Source

[13]: Google. (2024). DORA Report & Harness. (2025). State of Software Delivery Report. Impact of AI on delivery stability. Referenced in multiple sources.

[14]: Qodo. (2025). State of AI Code Quality Report. Developer trust and error rates in AI-generated code. Source

[15]: GitLab. (2024). Measuring AI Effectiveness Beyond Developer Productivity Metrics. Code coverage limitations with AI. Source

[16]: LinearB. (2024). AI Metrics: How to Measure Gen AI Code. Impact of AI on testing metrics. Source

[17]: Typemock. (2025). The AI Testing Dilemma: Why Human-Written Unit Tests Still Matter in 2025. Source

[18]: Chen, T.Y., et al. (2020). Metamorphic Testing of AI-based Applications: A Critical Review. International Journal of Advanced Computer Science and Applications. Source

[19]: ACM Computing Surveys. (2023). Artificial Intelligence Applied to Software Testing: A Tertiary Study. Metamorphic testing for AI systems. Source

[20]: MIT Research. (2024). DiffSpec: Differential Testing with LLMs. Finding bugs through differential testing. Source

[21]: AWS CodeGuru & AI Code Review Tools. (2024). Comparative Analysis. Aviator Blog. Source

[22]: Netflix & Chaos Engineering Evolution. (2024). Chaos Testing Explained. Splunk. Source

[23]: Red Hat & IBM Research. (2024). Supercharging Chaos Testing Using AI. Source

[24]: Diffblue. (2025). AI Agent for Java Unit Test Generation. Reinforcement learning approach. Source

[25]: For Sale Page . (2025). Automated Test Generation and Code Coverage. Source