Menneskehedens sidste test: AI har ingen chance i testen!
Ruhr University Bochum deltager i "Humanity's Last Exam", et nyt benchmark til vurdering af AI-kapaciteter.

Menneskehedens sidste test: AI har ingen chance i testen!
Den 1. april 2025 blev "Humanity's Last Exam" benchmark-datasættet præsenteret, specifikt designet til at teste mulighederne for Generative Artificial Intelligence (AI). Dette datasæt indeholder 550 spørgsmål udvalgt blandt mere end 70.000 indsendelser. Matematikerne fra Ruhr Universitetet i Bochum, Prof. Dr. Christian Stump og Prof. Dr. Alexander Ivanov, bidrog aktivt med tre spørgsmål til testdatasættet. Omkring 1.000 eksperter fra 50 lande bidrog til at udarbejde spørgsmålene. For at sikre testens integritet blev der kun valgt upublicerede spørgsmål, så AI-modeller ikke bare kan søge efter svarene på internettet.
Et særligt bemærkelsesværdigt aspekt af datasættet er, at 40 procent af spørgsmålene kommer fra matematikområdet. Disse spørgsmål har potentiale til at blive brugt som grundlag for ph.d.-afhandlinger. Derudover viser det sig, at jo mere abstrakte spørgsmålene er, jo bedre kan AI'ernes ræsonnementkæder belyses. På trods af denne sofistikerede struktur var de testede AI'er kun i stand til at svare meningsfuldt på ni procent af spørgsmålene. Modellerne gav konsekvent ubrugelige svar på de resterende spørgsmål. Dette afslører udfordringerne i at teste intelligensen og de problemorienterede evner af kunstig intelligens.
Betydningen af benchmarks for AI-udvikling
Introduktionen af "Humanity's Last Exam" (HLE) markerer et vigtigt skridt i evalueringen af store sprogmodeller. Tidligere benchmarks har ofte været utilstrækkelige til at måle væsentlige fremskridt i modellerne, da nuværende benchmarks som MMLU opfyldes af modellerne med over 90 procents nøjagtighed. Dette høje niveau af nøjagtighed begrænser dog muligheden for realistisk at vurdere modellernes faktiske muligheder. "HLE"-datasættet sigter derfor mod at være den sidste lukkede akademiske vurdering, der dækker en bred vifte af emner.
"HLE" omfatter i alt 3.000 spørgsmål inden for forskellige discipliner, herunder matematik, humaniora og naturvidenskab. Datasættet indeholder både multiple-choice og kortsvarsspørgsmål, der egner sig til automatisk karaktergivning. Hvert spørgsmål har en klar, verificerbar løsning og kan ikke hurtigt besvares med en simpel internetsøgning. De nuværende sprogmodeller viser dårlig nøjagtighed og kalibrering, når de testes med "HLE", hvilket indikerer en betydelig kløft mellem modellernes evner og menneskelig ekspertpræstation på lukkede akademiske spørgsmål. Dette fremhæver de udfordringer, man står over for med at klassificere den nuværende AI-udvikling og fremhæver det presserende behov for løbende at gennemgå fremskridt på dette område.
For de interesserede er "HLE" offentligt tilgængelig, og brugere opfordres til at citere værket, når datasættet bruges i forskning. Dette initiativ kan bidrage væsentligt til at påvirke fremtidige standarder og forventninger til AI-drevne uddannelses- og vurderingsværktøjer. For at fortsætte med kritisk at overvåge udviklingen inden for AI og dets ydeevne, er sådanne benchmarks afgørende.