Mänsklighetens sista test: AI har ingen chans i testet!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Ruhr University Bochum deltar i "Humanity's Last Exam", ett nytt riktmärke för att bedöma AI-kapacitet.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Ruhr University Bochum deltar i "Humanity's Last Exam", ett nytt riktmärke för att bedöma AI-kapacitet.

Mänsklighetens sista test: AI har ingen chans i testet!

Den 1 april 2025 presenterades benchmarkdatasetet "Humanity's Last Exam", speciellt utformat för att testa kapaciteten hos Generativ artificiell intelligens (AI). Denna datauppsättning innehåller 550 frågor valda från mer än 70 000 inlämningar. Matematikerna från Ruhr-universitetet i Bochum, Prof. Dr. Christian Stump och Prof. Dr. Alexander Ivanov, bidrog aktivt med tre frågor till testdatauppsättningen. Omkring 1 000 experter från 50 länder bidrog till att sammanställa frågorna. För att säkerställa testets integritet valdes endast opublicerade frågor så att AI-modeller inte bara kan söka efter svaren på Internet.

En särskilt anmärkningsvärd aspekt av datamängden är att 40 procent av frågorna kommer från matematikområdet. Dessa frågor har potential att användas som underlag för doktorsavhandlingar. Dessutom visar det sig att ju mer abstrakta frågorna är, desto bättre kan AI:arnas kedjor av resonemang belysas. Trots denna sofistikerade struktur kunde de testade AI:erna bara svara på nio procent av frågorna på ett meningsfullt sätt. Modellerna gav genomgående oanvändbara svar på de återstående frågorna. Detta avslöjar utmaningarna med att testa artificiell intelligenss intelligens och problemorienterade kapacitet.

Vikten av riktmärken för AI-utveckling

Införandet av "Humanity's Last Exam" (HLE) markerar ett viktigt steg i utvärderingen av stora språkmodeller. Tidigare riktmärken har ofta varit otillräckliga för att mäta betydande framsteg i modellerna, eftersom nuvarande riktmärken som MMLU uppfylls av modellerna med över 90 procents noggrannhet. Denna höga noggrannhetsnivå begränsar dock möjligheten att realistiskt bedöma modellernas faktiska kapacitet. "HLE"-datauppsättningen syftar därför till att vara den sista slutna akademiska bedömningen som täcker ett brett spektrum av ämnen.

"HLE" omfattar totalt 3 000 frågor inom olika discipliner, inklusive matematik, humaniora och naturvetenskap. Datauppsättningen innehåller både flervalsfrågor och kortsvarsfrågor lämpade för automatisk betygsättning. Varje fråga har en tydlig, verifierbar lösning och kan inte snabbt besvaras med en enkel internetsökning. De nuvarande språkmodellerna visar dålig noggrannhet och kalibrering när de testas med "HLE", vilket indikerar ett betydande gap mellan modellernas kapacitet och mänskliga expertprestationer på slutna akademiska frågor. Detta belyser de utmaningar som ställs inför för att gradera nuvarande AI-utveckling och understryker det akuta behovet av att kontinuerligt se över framstegen på detta område.

För dem som är intresserade är "HLE" allmänt tillgänglig och användare uppmuntras att citera verket när datasetet används i forskning. Detta initiativ kan avsevärt bidra till att påverka framtida standarder och förväntningar på AI-drivna utbildnings- och bedömningsverktyg. För att kunna fortsätta att kritiskt övervaka utvecklingen inom området AI och dess prestanda är sådana riktmärken viktiga.