AI scoort beter dan artsen bij complexe patiëntcasussen — maar wat zegt dat echt?
Een AI-systeem dat ‘nadenkt’ voor het antwoord geeft, overtreft menselijke artsen bij het beoordelen van ingewikkelde patiëntdossiers. De resultaten zijn indrukwekkend — maar de vragen die ze oproepen zijn dat ook.
Al decennia droomt de geneeskunde van een computersysteem dat artsen kan helpen bij diagnoses. Die droom kreeg lange tijd weinig steun van de werkelijkheid: vroege medische AI-systemen waren beperkt, broos en faalden bij de minste afwijking van hun trainingsscenario’s. Maar grote taalmodellen — de technologie achter chatbots als ChatGPT — veranderden het speelveld. Een nieuwe studie zet nu een stap verder: een zogeheten ’thinking model’, een AI die extra redeneerruimte krijgt voor een antwoord te geven, werd vergeleken met ervaren menselijke artsen op basis van echte, rommelige patiëntdata.
Echte data, geen opgepoetste examenvragen
Voorgaande studies over medische AI maakten vaak gebruik van gestandaardiseerde tests — de soort klinische casussen die voor examens worden ontworpen, netjes geformuleerd en compleet. Dat is een bekende valkuil: een AI kan uitstekend scoren op zulke tests terwijl hij faalt op echte patiëntdossiers vol afkortingen, ontbrekende waarden en tegenstrijdige notities.
Deze studie gebruikte juist die rommelige echte wereld als testomgeving. De AI moest complexe redeneerproblematiek oplossen, behandeladviezen geven en conclusies trekken uit ongestructureerde klinische aantekeningen. Op vrijwel alle gemeten dimensies presteerde het thinking model beter dan de menselijke artsen in de vergelijking. De marge was in sommige categorieën substantieel.
Wat ‘beter’ hier betekent — en wat niet
De bevindingen verdienen nuance. Ten eerste: ‘beter presteren’ in een gecontroleerd onderzoek is niet hetzelfde als beter zijn in een ziekenhuis. Artsen doen meer dan redeneren over tekst: ze voeren lichamelijk onderzoek uit, lezen non-verbale signalen, bouwen een vertrouwensrelatie op met de patiënt, en nemen verantwoordelijkheid voor beslissingen. Geen van die elementen was onderdeel van deze test.
Ten tweede: de manier waarop de AI ‘denkt’ is fundamenteel anders dan menselijk redeneren. Een thinking model genereert uitgebreide interne redeneerstappen — een proces dat in de machine-learning wereld chain-of-thought reasoning heet. Het levert indrukwekkende output, maar of er iets van begrip achter zit of slechts verfijnd patroonherkenning, blijft een open filosofische en empirische vraag.
Ten derde: AI-systemen kunnen hardnekkig fout zijn op een specifieke manier die artsen niet zijn. Ze hallucineren soms — produceren plausibel klinkende maar feitelijk onjuiste informatie. En ze zijn gevoelig voor de manier waarop een vraag is gesteld, wat in een klinische setting gevaarlijk kan zijn.
Voor de longevity-wereld is de bredere implicatie misschien het interessantst: als AI-systemen effectief complexe medische informatie kunnen analyseren, dan openen ze ook de deur naar betere, snellere analyse van verouderingsonderzoek — van biomarkerdatasets tot klinische trials. Dat potentieel is nog nauwelijks aangesproken.