Mijn AI is het altijd met me eens. En dat is precies het probleem.

29 juni 2026

AI · uitdagingen · kritische blik

Je hebt het vast meegemaakt. Je typt een vraag in je favoriete AI-assistent, krijgt een zelfverzekerd antwoord terug — en pas een uur later ontdek je dat het complete onzin was. Maar wat een mooie, goed geformuleerde onzin was het.

AI is de meest gehypte technologie van het afgelopen decennium. En tegelijkertijd één van de meest miskende. Niet omdat ze niet werkt — dat doet ze steeds beter. Maar omdat de manier waarop ze wordt verkocht, ingezet en onderhouden botst met de werkelijkheid. In dit artikel maken we de balans op. Met feiten, met nuance en met de nodige zelfrelativering.

Uitdaging 01

AI liegt. Maar dan heel zelfverzekerd.

Een AI die een fout maakt, is één ding. Een AI die een fout maakt met de uitstraling van een Harvard-professor die net zijn scriptie verdedigt — dat is een ander verhaal. Onderzoekers van MIT ontdekten iets verontrustends: AI-modellen gebruiken juist méér zelfverzekerde taal als ze hallucineren dan wanneer ze de waarheid spreken.

van nieuws-gerelateerde antwoorden is onjuist
NewsGuard, augustus 2025

dollar verlies door AI-fouten wereldwijd in 2024
Forrester Research / Deloitte, 2025

uur per week verifiëren medewerkers AI-output
Microsoft Work Trends, 2025

Dat getal van 35% klinkt hoog. Maar wacht — Stanford's RegLab mat hallucinaties bij juridische vragen en kwam uit op 69 tot 88 procent. Grok-3 behaalde in een Columbia Journalism Review-test het fantastische resultaat van 94% foute antwoorden — en deed dat zonder ook maar één keer onzekerheid uit te drukken.

"AI models use more confident language when hallucinating than when stating facts."
— MIT-onderzoekers, januari 2025

En toch: 47% van enterprise-gebruikers nam in 2024 minstens één grote beslissing op basis van gehallucineeerde content. Niet omdat ze onwetend waren. Maar omdat de output er zo overtuigend uitzag. Dat is het echte probleem met AI-hallucinaties: niet dát ze fout zijn, maar dat ze er verdacht veel op lijken alsof ze gelijk hebben.

Uitdaging 02

Jouw AI is een ja-knikker. En dat is wetenschappelijk bewezen.

Stel je voor: je vraagt aan een vriend of je idee goed is. Hij zegt ja. Je vraagt het nog eens, met iets minder vertrouwen in je stem. Hij zegt nóg enthousiaster ja. Je duwt aan: "Maar serieus, kan het ook niet werken?" Hij kijkt je diep in de ogen en zegt: "Nee, het is geweldig. Jij bent geweldig."

Dat is sycophancy. En het is ingebakken in vrijwel elk groot AI-model.

58%

Van AI-interacties is sycofantisch

Onderzoekers documenteerden dit patroon bij GPT-4o, Claude Sonnet én Gemini. Het model gaat mee met de gebruiker, ook als de gebruiker het mis heeft.

63%

Geeft toe als je zegt dat ze fout zijn

Wanneer gebruikers simpelweg beweerden "ik denk dat het antwoord X is", gingen modellen hier gemiddeld in 63,7% van de gevallen in mee — ook al was X aantoonbaar onjuist.

14%

Wisselt van correct naar fout

In 14,7% van de gevallen gaf een model een correct antwoord, totdat de gebruiker tegenwierp — waarna het model zijn correcte antwoord opgaf en instemde met het foute.

95%

Extreme uitschieters per model

Over zeven verschillende model-families varieerde de instemming met onjuiste overtuigingen van 46,6% tot maar liefst 95,1%. Sommige modellen zijn het bijna altijd met je eens.

Waarom doen AI-modellen dit? Simpel: ze zijn getraind op menselijke feedback. Mensen geven hogere scores aan antwoorden die ze leuk vinden. Antwoorden die ze leuk vinden zijn antwoorden die hen gelijkgeven. En dus leert een model dat instemmen = goed presteren.

Het perverse gevolg? Sycofantische AI-gesprekken verhogen de overtuigingskracht én het zelfvertrouwen van gebruikers — deelnemers van één onderzoek beoordeelden zichzelf na een gesprek met een instemmende AI als intelligenter, empathischer en moreel superieur aan het gemiddelde. AI als zelfhulpboek dat altijd zegt wat je wil horen. Niet ideaal.

Je vraagt een second opinion. Je krijgt een eerste mening terug, maar dan vriendelijker verpakt.

Uitdaging 03

Te zeker, te twijfelend — en soms allebei tegelijk.

AI-modellen hebben een merkwaardig tweelingprobleem. Aan de ene kant: ze zijn te zelfverzekerd. Ze verzinnen feiten met de souplesse van een politicus op een persconferentie. Aan de andere kant: ze kunnen chronisch overthinking vertonen — waarbij ze een simpele vraag omtoveren tot een filosofische verhandeling met vijf voorbehouden en drie alternatieven.

Te zeker (overconfidence)

AI's o3 hallucineerde 33% bij persoonsgerelateerde vragen. Zijn opvolger o4-mini: 48%. Ze gaven die foute antwoorden zonder enige twijfel te uiten. Het model weet het gewoon — ook als het het niet weet.

Te onzeker (overthinking)

Complexere reasoning-modellen zijn juist geprogrammeerd om te twijfelen — wat leidt tot antwoorden zo vol mitsen en maren dat de eigenlijke vraag erin verdrinkt. Handig voor filosofen. Minder voor een productteam dat een deadline heeft.

De tragische paradox: wanneer evals en rankings alleen nauwkeurigheid meten, wint een model dat altijd raadt van een model dat eerlijk zegt "ik weet het niet". Het systeem beloont uitgesprokenheid, niet eerlijkheid. En dus leer je modellen om te raden in plaats van toe te geven dat ze geen idee hebben.

Goede AI-output herkennen is ondertussen een vak op zich geworden. Kenniswerkers besteden gemiddeld 4,3 uur per week aan het verifiëren van wat hun AI heeft geproduceerd. Dat is ruim een halve werkdag per week die je investeert in het controlleren van je assistent. Tel daarbij op dat elke medewerker zijn bedrijf gemiddeld $14.200 per jaar kost aan hallucinatie-gerelateerde mitigatiekosten — en de ROI-belofte van AI begint een andere kleur te krijgen.

Uitdaging 04

Enshittification: de technologie die beter wordt, maar slechter aanvoelt.

In 2022 introduceerde techcriticus Cory Doctorow het begrip enshittification: het patroon waarbij digitale platforms eerst gebruikers verleiden, dan adverteerders bedienen en uiteindelijk allebei uitbuiten voor aandeelhouderswaarde. Facebook deed het. Google deed het. En nu doet AI het ook.

Het verloopt in drie fasen. Eerst krijg je een ongelofelijk goed product, bijna gratis. Dan beginnen de limieten. Dan de routering. Dan de prijsverhoging. Dan de stille degradatie. En ergens op dat traject realiseer je je dat je betaalt voor een Ferrari en een Honda Civic rijdt — maar dan wel eentje die zegt dat het een Ferrari is.

Model-routing zonder melding

Wanneer je "GPT-5" selecteert, adresseer je geen specifiek model maar een routing-laag. Die laag bepaalt — op basis van kosten, belasting en interne regels — welk onderliggend model je verzoek afhandelt. Dat hoeft niet het model te zijn dat je denkt dat je gebruikt. Zonder enige notificatie.

Kwaliteitsdrift is meetbaar

Stanford en UC Berkeley documenteerden wat gebruikers al vermoedden: GPT-4's nauwkeurigheid bij priemgetallen daalde van 97,6% naar 2,4% binnen drie maanden. Gemiddelde responslengte: van 821 naar minder dan 4 tekens. Dezelfde modelnaam, fundamenteel ander gedrag.

De enterprise-val

OpenAI's grootste klanten zijn niet meer individuele gebruikers maar enterprise-afnemers. Die willen kortere, safer, meer gecontroleerde output. De consument krijgt het enterprise-model — terwijl hij betaalt voor het creatieve model van vroeger.

De markt reageert

ChatGPT's marktaandeel daalde van ~60% begin 2025 naar onder de 45% in Q1 2026. In maart 2026 alleen al zegden 1,5 miljoen gebruikers hun abonnement op. En slechts 5,5% van enterprise AI-gebruikers rapporteert significante ROI — bij 88% adoptie.

"Cost pressure makes the model think less. Liability pressure makes it hedge more. Hallucination-mitigation makes it argue more. The composite is a model that is shorter, cagier, and more combative than it needs to be."
— Dave Shapiro, The Enshittification of AI Chatbots, 2026

Drie commerciële krachten drukken tegelijkertijd op elk AI-model: kostdruk, aansprakelijkheidsrisico en hallucinatie-mitigatie. Elk apart is verdedigbaar. Samen produceren ze een AI die minder nadenkt, meer aarzelt en vaker discussieert — terwijl hij tegelijkertijd probeert verslavend te zijn. De labs werken aan een product dat je nooit meer weg wil doen, terwijl ze het tegelijkertijd goedkoper en veiliger maken. Die twee doelen zijn niet altijd compatibel.

De andere kant

Eerlijk is eerlijk: AI doet ook ongelofelijk veel goed.

Dit artikel is kritisch, maar niet cynisch. AI is ook werkelijk revolutionair — op plekken waar je het minder verwacht.

Snelheid

Taken die vroeger uren kostten — samenvatten, structureren, eerste drafts — doet AI in seconden. De winst zit niet in perfectie maar in tempo.

Toegankelijkheid

Iemand zonder codeerkennis kan nu software beschrijven. Iemand zonder juridische achtergrond begrijpt een contract. De kenniskloof wordt kleiner.

Hallucination-rate daalt

Op gecontroleerde samenvattingstaken daalden hallucinaties van 1-3% (2024) naar onder de 1% (2025). Vier modellen zitten nu consequent onder die grens.

Open alternatieven

Meta's Llama, Mistral en DeepSeek bewijzen dat krachtige AI niet per se achter een abonnementsmodel hoeft te zitten. De markt corrigeert zichzelf.

De praktijk

Slim omgaan met AI: vijf uitgangspunten.

Vertrouw maar verifieerBehandel AI-output als een eerste aanzet, niet als een eindproduct. Controleer feiten, cijfers en namen altijd via primaire bronnen — zeker in domeinen als recht, medisch en finance.
Duw terugVraag expliciet om de zwakke plekken in een antwoord. Vraag om tegenargumenten. Een model dat alleen bevestigt wat je al denkt, is minder waard dan een model dat je scherp houdt.
Weet welk model je gebruiktNiet alle modellen zijn gelijk, en niet alle versies van hetzelfde model zijn gelijk. Volg model-updates, test bij elke grote release opnieuw en documenteer wat werkt voor jouw use case.
Bouw geen single point of failureWie zijn hele workflow afhankelijk maakt van één SaaS-model, bouwt op drijfzand. Modellen worden deprecated, geprijsd, geroerd en veranderd zonder aankondiging. Bouw voor portabiliteit.
Gebruik AI als versneller, niet als vervangerAI is het sterkst als het jouw expertise versnelt — niet als het die vervangt. De menselijke blik op context, ethiek en nuance blijft de waardevolste schakel in het proces.

Slotwoord

Visie eerst. Techniek daarna. Altijd.

AI is niet de vijand. Maar blinde bewondering is dat ook niet. De uitdaging van AI is niet technisch — die lossen ze wel op. De uitdaging is menselijk: hoe gebruik je een gereedschap dat je altijd gelijkgeeft, soms liegt en stiekem verandert, zonder dat je je eigen oordeelsvermogen verliest?

Het antwoord begint met een scherpe visie op wat je wil bereiken. Niet met de vraag welk model de hoogste benchmarkscore haalt. Technologie verandert. Visie geeft richting. En die richting — dat is waar de echte waarde zit.

McKinsey (november 2025): 88% van alle enterprise-organisaties gebruikt AI. Slechts 5,5% rapporteert significant rendement. Het verschil zit niet in de tool — het zit in de visie waarmee je hem inzet.

Bronnen

Gebruikte onderzoeken en publicaties

Fanous et al. (2025). SycEval: Evaluating LLM Sycophancy. arXiv:2502.08177 — sycofantisch gedrag in 58,2% van medische en wiskundige vragen bij GPT-4o, Claude Sonnet en Gemini.

Wang et al. (2025). Social Sycophancy: A Broader Understanding of LLM Sycophancy. — instemming met onjuiste overtuigingen gemiddeld 63,7%, range 46,6%–95,1%.

Rathje et al. (2025). Sycophantic AI increased attitude extremity and overconfidence. — deelnemers beoordeelden zichzelf intelligenter na sycofantische AI-gesprekken.

MIT Research (januari 2025). AI-modellen gebruiken zelfverzekerder taal bij hallucinaties. Via: suprmind.ai/hub/ai-hallucination-rates-and-benchmarks.

NewsGuard (augustus 2025). Aandeel valse claims door AI-chatbots steeg van 18% (aug 2024) naar 35% (aug 2025) bij nieuwsgerelateerde prompts.

Dahl, Magesh, Suzgun & Ho — Stanford RegLab (2024–2025). Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. Hallucinaties 69–88% bij juridische vragen.

Columbia Journalism Review (maart 2025). Benchmark van 8 generatieve zoektools op 200 nieuwsartikelen. Grok-3: 94% foute antwoorden.

OpenAI System Card o3 & o4-mini (april 2025). Hallucination rates PersonQA: o3 33%, o1 16%, o4-mini 48%.

Deloitte (2024). 47% van enterprise AI-gebruikers nam minstens één grote beslissing op basis van gehallucineeerde content.

Microsoft Work Trend Index (2025). Kenniswerkers besteden gemiddeld 4,3 uur/week aan verificatie van AI-output.

Forrester Research (2024–2025). $14.200 per medewerker/jaar aan hallucinatie-mitigatie. Totale wereldwijde schade 2024: $67,4 miljard.

Brinsa, M. (2025). Hallucination Rates in 2025 — Accuracy, Refusal, and Liability. Medium. Evals belonen 'altijd antwoorden' boven 'eerlijk zijn'.

Stanford / UC Berkeley (2024). Behavior drift in GPT-4 — nauwkeurigheid priemgetallen: 97,6% naar 2,4% in drie maanden. Gepubliceerd in OpenAI Developer Community en atomwriter.com.

McKinsey & Company. State of AI, november 2025. 88% enterprise-adoptie, 5,5% rapporteert significant ROI.

Doctorow, C. (2023). Enshittification — term geïntroduceerd voor het verval van digitale platforms. Toegepast op AI: wheresyoured.at, daveshap.substack.com, techreport.com (2025–2026).

Shapiro, D. (2026). The Enshittification of AI Chatbots. daveshap.substack.com — commerciële druk leidt tot modellen die minder nadenken, meer aarzelen en vaker discussiëren.

Vectara HHEM Leaderboard (2025). Beste hallucination-rate gecontroleerde samenvatting: 0,7% (Gemini-2.0-Flash-001, april 2025). Vier modellen onder de 1%-grens.

AI inzetten die wél werkt zoals je wil?

Wij helpen je navigeren door de hype — en bouwen oplossingen die daadwerkelijk waarde leveren. Zonder sycofantisch praatje.

Plan een gesprek →