Posljednji test čovječanstva: AI nema šanse na testu!
Sveučilište Ruhr Bochum sudjeluje u "Posljednjem ispitu čovječanstva", novom mjerilu za procjenu AI sposobnosti.

Posljednji test čovječanstva: AI nema šanse na testu!
Dana 1. travnja 2025. predstavljen je referentni skup podataka "Posljednji ispit čovječanstva", posebno dizajniran za testiranje mogućnosti Generativne umjetne inteligencije (AI). Ovaj skup podataka sadrži 550 pitanja odabranih iz više od 70 000 podnesaka. Matematičari sa Sveučilišta Ruhr Bochum, prof. dr. Christian Stump i prof. dr. Alexander Ivanov, aktivno su doprinijeli s tri pitanja skupu testnih podataka. U sastavljanju pitanja sudjelovalo je oko 1000 stručnjaka iz 50 zemalja. Kako bi se osigurao integritet testa, odabrana su samo neobjavljena pitanja tako da AI modeli ne mogu jednostavno tražiti odgovore na internetu.
Posebno značajan aspekt skupa podataka je da 40 posto pitanja dolazi iz područja matematike. Ova pitanja mogu se koristiti kao osnova za doktorske disertacije. Osim toga, pokazalo se da što su pitanja apstraktnija, to se lanac zaključivanja umjetne inteligencije može bolje rasvijetliti. Unatoč ovoj sofisticiranoj strukturi, testirane umjetne inteligencije uspjele su smisleno odgovoriti samo na devet posto pitanja. Modeli su dosljedno davali neupotrebljive odgovore na preostala pitanja. Ovo otkriva izazove u testiranju inteligencije i sposobnosti umjetne inteligencije usmjerene na rješavanje problema.
Važnost mjerila za razvoj umjetne inteligencije
Uvođenje "Posljednjeg ispita čovječanstva" (HLE) označava važan korak u evaluaciji velikih jezičnih modela. Prijašnja mjerila često su bila nedovoljna za mjerenje značajnog napretka u modelima, budući da trenutna mjerila kao što je MMLU zadovoljavaju modeli s više od 90 posto točnosti. Međutim, ova visoka razina točnosti ograničava mogućnost realne procjene stvarnih mogućnosti modela. Skup podataka "HLE" stoga ima za cilj biti posljednja zatvorena akademska procjena koja pokriva širok raspon predmeta.
“HLE” uključuje ukupno 3000 pitanja u različitim disciplinama, uključujući matematiku, humanističke znanosti i znanost. Skup podataka sadrži i pitanja s višestrukim izborom i pitanja s kratkim odgovorima pogodna za automatsko ocjenjivanje. Svako pitanje ima jasno, provjerljivo rješenje i na njega se ne može brzo odgovoriti jednostavnom internetskom pretragom. Trenutačni jezični modeli pokazuju lošu točnost i kalibraciju kada se testiraju s "HLE", što ukazuje na značajan jaz između mogućnosti modela i ljudske ekspertne izvedbe na zatvorenim akademskim pitanjima. Ovo naglašava izazove s kojima se suočavamo u ocjenjivanju trenutnog razvoja umjetne inteligencije i naglašava hitnu potrebu za stalnim pregledom napretka u ovom području.
Za one koji su zainteresirani, “HLE” je javno dostupan i korisnici se potiču da citiraju rad kada se skup podataka koristi u istraživanju. Ova bi inicijativa mogla značajno utjecati na buduće standarde i očekivanja za alate za obrazovanje i ocjenjivanje utemeljene na umjetnoj inteligenciji. Kako bismo nastavili kritički pratiti razvoj u području umjetne inteligencije i njezine izvedbe, takva su mjerila ključna.