Paskutinis žmonijos išbandymas: AI teste neturi šansų!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Rūro universitetas Bochum dalyvauja „Paskutiniame žmonijos egzamine“ – naujame DI gebėjimų vertinimo etalone.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Rūro universitetas Bochum dalyvauja „Paskutiniame žmonijos egzamine“ – naujame DI gebėjimų vertinimo etalone.

Paskutinis žmonijos išbandymas: AI teste neturi šansų!

2025 m. balandžio 1 d. buvo pristatytas etaloninis duomenų rinkinys „Paskutinis žmonijos egzaminas“, specialiai sukurtas generatyvaus dirbtinio intelekto (AI) galimybėms išbandyti. Šiame duomenų rinkinyje yra 550 klausimų, atrinktų iš daugiau nei 70 000 pateiktų pasiūlymų. Bochumo Rūro universiteto matematikai prof. dr. Christian Stump ir prof. dr. Aleksandras Ivanovas aktyviai prisidėjo prie trijų testo duomenų rinkinio klausimų. Rengiant klausimus prisidėjo apie 1000 ekspertų iš 50 šalių. Siekiant užtikrinti testo vientisumą, buvo pasirinkti tik neskelbti klausimai, kad dirbtinio intelekto modeliai negalėtų tiesiog ieškoti atsakymų internete.

Ypač pastebimas duomenų rinkinio aspektas yra tai, kad 40 procentų klausimų yra iš matematikos srities. Šie klausimai gali būti naudojami kaip daktaro disertacijų pagrindas. Be to, paaiškėja, kad kuo abstraktesni klausimai, tuo geriau galima apšviesti AI samprotavimo grandines. Nepaisant šios sudėtingos struktūros, išbandyti AI galėjo prasmingai atsakyti tik į devynis procentus klausimų. Modeliai nuosekliai pateikė netinkamus atsakymus į likusius klausimus. Tai atskleidžia iššūkius išbandant dirbtinio intelekto intelektą ir į problemas orientuotas galimybes.

Etalonų svarba AI plėtrai

„Paskutinio žmonijos egzamino“ (HLE) įvedimas žymi svarbų žingsnį vertinant didelius kalbos modelius. Ankstesnių etalonų dažnai nepakako reikšmingai modelių pažangai įvertinti, nes dabartinius etalonus, tokius kaip MMLU, modeliai atitinka daugiau nei 90 procentų tikslumu. Tačiau šis aukštas tikslumo lygis riboja galimybę realiai įvertinti faktines modelių galimybes. Todėl „HLE“ duomenų rinkinys yra paskutinis uždaras akademinis įvertinimas, apimantis daugybę dalykų.

„HLE“ iš viso apima 3000 klausimų įvairiose disciplinose, įskaitant matematiką, humanitarinius mokslus ir mokslą. Duomenų rinkinyje yra klausimų su daugybe atsakymų ir trumpų atsakymų, tinkamų automatiniam įvertinimui. Kiekvienas klausimas turi aiškų, patikrinamą sprendimą ir į jį negali greitai atsakyti paprasta paieška internete. Dabartiniai kalbiniai modeliai rodo prastą tikslumą ir kalibravimą, kai jie buvo išbandyti su „HLE“, o tai rodo didelį atotrūkį tarp modelių galimybių ir žmogaus ekspertų veiklos sprendžiant uždarojo tipo akademinius klausimus. Tai pabrėžia iššūkius, su kuriais susiduriama vertinant dabartinį AI vystymąsi, ir pabrėžia, kad būtina skubiai nuolat peržiūrėti pažangą šioje srityje.

Besidomintiems „HLE“ yra viešai prieinama, o vartotojai raginami cituoti darbą, kai duomenų rinkinys naudojamas tyrimams. Ši iniciatyva galėtų labai paveikti ateities standartus ir lūkesčius, susijusius su dirbtiniu intelektu pagrįstų švietimo ir vertinimo įrankių. Norint toliau kritiškai stebėti DI srities pokyčius ir jo veikimą, tokie gairės yra būtini.