Končni preizkus človeštva: AI na testu nima možnosti!
Porurska univerza Bochum sodeluje pri »Zadnjem izpitu človeštva«, novem merilu za ocenjevanje zmogljivosti umetne inteligence.

Končni preizkus človeštva: AI na testu nima možnosti!
1. aprila 2025 je bil predstavljen primerjalni nabor podatkov »Zadnji izpit človeštva«, posebej zasnovan za preizkušanje zmogljivosti generativne umetne inteligence (AI). Ta nabor podatkov vsebuje 550 vprašanj, izbranih iz več kot 70.000 predloženih vprašanj. Matematika z Univerze Ruhr Bochum, prof. dr. Christian Stump in prof. dr. Alexander Ivanov, sta aktivno prispevala tri vprašanja k naboru testnih podatkov. Pri sestavljanju vprašanj je sodelovalo približno 1000 strokovnjakov iz 50 držav. Da bi zagotovili celovitost testa, so bila izbrana samo neobjavljena vprašanja, tako da modeli AI ne morejo preprosto iskati odgovorov na internetu.
Posebej opazen vidik nabora podatkov je, da 40 odstotkov vprašanj prihaja s področja matematike. Ta vprašanja se lahko uporabijo kot podlaga za doktorske disertacije. Poleg tega se izkaže, da bolj ko so vprašanja abstraktna, bolje je mogoče osvetliti verige sklepanja AI. Kljub tej prefinjeni strukturi so testirani AI lahko smiselno odgovorili le na devet odstotkov vprašanj. Modeli so dosledno zagotavljali neuporabne odgovore na preostala vprašanja. To razkriva izzive pri testiranju inteligence in problemsko usmerjenih zmožnosti umetne inteligence.
Pomen meril za razvoj umetne inteligence
Uvedba »Zadnjega izpita človeštva« (HLE) pomeni pomemben korak pri vrednotenju velikih jezikovnih modelov. Prejšnja merila uspešnosti so bila pogosto nezadostna za merjenje znatnega napredka v modelih, saj trenutna merila uspešnosti, kot je MMLU, modeli dosegajo z več kot 90-odstotno natančnostjo. Vendar ta visoka stopnja natančnosti omejuje možnost realne ocene dejanskih zmogljivosti modelov. Nabor podatkov »HLE« je zato namenjen zadnjemu zaprtemu akademskemu ocenjevanju, ki zajema širok spekter tem.
»HLE« vključuje skupno 3000 vprašanj v različnih disciplinah, vključno z matematiko, humanistiko in naravoslovjem. Nabor podatkov vsebuje vprašanja z več možnimi odgovori in vprašanja s kratkimi odgovori, primerna za samodejno ocenjevanje. Vsako vprašanje ima jasno, preverljivo rešitev in nanj ni mogoče hitro odgovoriti s preprostim iskanjem po internetu. Trenutni jezikovni modeli kažejo slabo natančnost in kalibracijo pri testiranju s »HLE«, kar kaže na veliko vrzel med zmogljivostmi modelov in človeškim strokovnim delovanjem pri zaprtih akademskih vprašanjih. To poudarja izzive, s katerimi se soočamo pri ocenjevanju trenutnega razvoja umetne inteligence, in poudarja nujno potrebo po stalnem pregledovanju napredka na tem področju.
Za tiste, ki jih zanima, je »HLE« javno dostopen in uporabnike spodbujamo, da citirajo delo, ko se nabor podatkov uporablja v raziskavi. Ta pobuda bi lahko znatno vplivala na prihodnje standarde in pričakovanja za izobraževalna in ocenjevalna orodja, ki jih poganja AI. Za nadaljnje kritično spremljanje razvoja na področju umetne inteligence in njene uspešnosti so takšna merila uspešnosti bistvena.