Posljednji test čovječanstva: AI nema šanse na testu!

Franziska Richter

Profil E-Mail

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 01.04.2025

Sprache:

Sveučilište Ruhr Bochum sudjeluje u "Posljednjem ispitu čovječanstva", novom mjerilu za procjenu AI sposobnosti.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten. — Sveučilište Ruhr Bochum sudjeluje u "Posljednjem ispitu čovječanstva", novom mjerilu za procjenu AI sposobnosti.

Dana 1. travnja 2025. predstavljen je referentni skup podataka "Posljednji ispit čovječanstva", posebno dizajniran za testiranje mogućnosti Generativne umjetne inteligencije (AI). Ovaj skup podataka sadrži 550 pitanja odabranih iz više od 70 000 podnesaka. Matematičari sa Sveučilišta Ruhr Bochum, prof. dr. Christian Stump i prof. dr. Alexander Ivanov, aktivno su doprinijeli s tri pitanja skupu testnih podataka. U sastavljanju pitanja sudjelovalo je oko 1000 stručnjaka iz 50 zemalja. Kako bi se osigurao integritet testa, odabrana su samo neobjavljena pitanja tako da AI modeli ne mogu jednostavno tražiti odgovore na internetu.

Posebno značajan aspekt skupa podataka je da 40 posto pitanja dolazi iz područja matematike. Ova pitanja mogu se koristiti kao osnova za doktorske disertacije. Osim toga, pokazalo se da što su pitanja apstraktnija, to se lanac zaključivanja umjetne inteligencije može bolje rasvijetliti. Unatoč ovoj sofisticiranoj strukturi, testirane umjetne inteligencije uspjele su smisleno odgovoriti samo na devet posto pitanja. Modeli su dosljedno davali neupotrebljive odgovore na preostala pitanja. Ovo otkriva izazove u testiranju inteligencije i sposobnosti umjetne inteligencije usmjerene na rješavanje problema.

Važnost mjerila za razvoj umjetne inteligencije

Uvođenje "Posljednjeg ispita čovječanstva" (HLE) označava važan korak u evaluaciji velikih jezičnih modela. Prijašnja mjerila često su bila nedovoljna za mjerenje značajnog napretka u modelima, budući da trenutna mjerila kao što je MMLU zadovoljavaju modeli s više od 90 posto točnosti. Međutim, ova visoka razina točnosti ograničava mogućnost realne procjene stvarnih mogućnosti modela. Skup podataka "HLE" stoga ima za cilj biti posljednja zatvorena akademska procjena koja pokriva širok raspon predmeta.

“HLE” uključuje ukupno 3000 pitanja u različitim disciplinama, uključujući matematiku, humanističke znanosti i znanost. Skup podataka sadrži i pitanja s višestrukim izborom i pitanja s kratkim odgovorima pogodna za automatsko ocjenjivanje. Svako pitanje ima jasno, provjerljivo rješenje i na njega se ne može brzo odgovoriti jednostavnom internetskom pretragom. Trenutačni jezični modeli pokazuju lošu točnost i kalibraciju kada se testiraju s "HLE", što ukazuje na značajan jaz između mogućnosti modela i ljudske ekspertne izvedbe na zatvorenim akademskim pitanjima. Ovo naglašava izazove s kojima se suočavamo u ocjenjivanju trenutnog razvoja umjetne inteligencije i naglašava hitnu potrebu za stalnim pregledom napretka u ovom području.

Za one koji su zainteresirani, “HLE” je javno dostupan i korisnici se potiču da citiraju rad kada se skup podataka koristi u istraživanju. Ova bi inicijativa mogla značajno utjecati na buduće standarde i očekivanja za alate za obrazovanje i ocjenjivanje utemeljene na umjetnoj inteligenciji. Kako bismo nastavili kritički pratiti razvoj u području umjetne inteligencije i njezine izvedbe, takva su mjerila ključna.

Quellen:

Posljednji test čovječanstva: AI nema šanse na testu!

Važnost mjerila za razvoj umjetne inteligencije

Weitersagen oder Speichern

Das Neueste

Start-up Shortcuts: Tipps für Gründer am 23. Oktober in Lübeck!

KI-Reallabor Agrar: Revolution für die Landwirtschaft in Osnabrück!

Großbrand in Bielefeld: Feuerwehr im Alarmmodus – Anwohner evakuiert!

Samstags-Uni in Freiburg: Entdecken Sie die Kulturgeschichte der Stadt!

Hilfe für Eltern: Tipps zu Mutismus und Angststörungen bei Kindern!