De laatste test van de mensheid: AI heeft geen enkele kans in de test!
De Ruhr Universiteit Bochum neemt deel aan ‘Humanity’s Last Exam’, een nieuwe benchmark voor het beoordelen van AI-capaciteiten.

De laatste test van de mensheid: AI heeft geen enkele kans in de test!
Op 1 april 2025 werd de benchmarkdataset ‘Humanity’s Last Exam’ gepresenteerd, speciaal ontworpen om de mogelijkheden van generatieve kunstmatige intelligentie (AI) te testen. Deze dataset bevat 550 vragen, geselecteerd uit meer dan 70.000 inzendingen. De wiskundigen van de Ruhr Universiteit Bochum, prof. dr. Christian Stump en prof. dr. Alexander Ivanov, hebben actief drie vragen bijgedragen aan de testdataset. Ongeveer 1.000 experts uit 50 landen hebben bijgedragen aan het opstellen van de vragen. Om de integriteit van de toets te waarborgen zijn er alleen ongepubliceerde vragen gekozen, zodat AI-modellen niet zomaar op internet naar de antwoorden kunnen zoeken.
Een bijzonder opvallend aspect van de dataset is dat 40 procent van de vragen uit de wiskunde komt. Deze vragen kunnen mogelijk gebruikt worden als basis voor proefschriften. Bovendien blijkt dat hoe abstracter de vragen zijn, hoe beter de redeneerketens van de AI’s kunnen worden belicht. Ondanks deze geavanceerde structuur konden de geteste AI’s slechts negen procent van de vragen zinvol beantwoorden. De modellen gaven consequent onbruikbare antwoorden op de resterende vragen. Dit onthult de uitdagingen bij het testen van de intelligentie en probleemgerichte capaciteiten van kunstmatige intelligentie.
Belang van benchmarks voor AI-ontwikkelingen
De introductie van ‘Humanity’s Last Exam’ (HLE) markeert een belangrijke stap in de evaluatie van grote taalmodellen. Eerdere benchmarks waren vaak onvoldoende om significante vooruitgang in de modellen te meten, aangezien de modellen aan huidige benchmarks zoals MMLU voldoen met een nauwkeurigheid van meer dan 90 procent. Dit hoge nauwkeurigheidsniveau beperkt echter het vermogen om de werkelijke mogelijkheden van de modellen realistisch te beoordelen. De “HLE”-dataset is daarom bedoeld om de laatste gesloten academische beoordeling te zijn die een breed scala aan onderwerpen bestrijkt.
“HLE” omvat in totaal 3.000 vragen in verschillende disciplines, waaronder wiskunde, geesteswetenschappen en natuurwetenschappen. De dataset bevat zowel meerkeuzevragen als vragen met korte antwoorden die geschikt zijn voor automatische beoordeling. Elke vraag heeft een duidelijke, verifieerbare oplossing en kan niet snel worden beantwoord met een simpele zoekopdracht op internet. De huidige taalmodellen vertonen een slechte nauwkeurigheid en kalibratie wanneer ze worden getest met “HLE”, wat wijst op een aanzienlijke kloof tussen de capaciteiten van de modellen en de prestaties van menselijke experts op gesloten academische vragen. Dit benadrukt de uitdagingen waarmee we te maken krijgen bij het beoordelen van de huidige AI-ontwikkeling en benadrukt de dringende noodzaak om de voortgang op dit gebied voortdurend te beoordelen.
Voor geïnteresseerden is “HLE” openbaar beschikbaar en gebruikers worden aangemoedigd om het werk te citeren wanneer de dataset in onderzoek wordt gebruikt. Dit initiatief zou de toekomstige normen en verwachtingen voor door AI aangedreven onderwijs- en beoordelingsinstrumenten aanzienlijk kunnen beïnvloeden. Om de ontwikkelingen op het gebied van AI en de prestaties daarvan kritisch te kunnen blijven volgen, zijn dergelijke benchmarks essentieel.