Pēdējais cilvēces pārbaudījums: AI testā nav izredžu!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Rūras universitāte Bohumā piedalās “Cilvēces pēdējā eksāmenā”, kas ir jauns etalons AI spēju novērtēšanai.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Rūras universitāte Bohumā piedalās “Cilvēces pēdējā eksāmenā”, kas ir jauns etalons AI spēju novērtēšanai.

Pēdējais cilvēces pārbaudījums: AI testā nav izredžu!

2025. gada 1. aprīlī tika prezentēta etalona datu kopa “Cilvēces pēdējais eksāmens”, kas īpaši izstrādāta, lai pārbaudītu ģeneratīvā mākslīgā intelekta (AI) iespējas. Šajā datu kopā ir 550 jautājumi, kas atlasīti no vairāk nekā 70 000 iesniegumu. Matemātiķi no Rūras Universitātes Bohumā, prof. Dr. Kristians Stumps un prof. Dr. Aleksandrs Ivanovs, testa datu kopai aktīvi pievienoja trīs jautājumus. Jautājumu sastādīšanā piedalījās aptuveni 1000 ekspertu no 50 valstīm. Lai nodrošinātu testa integritāti, tika izvēlēti tikai nepublicēti jautājumi, lai AI modeļi nevarētu vienkārši meklēt atbildes internetā.

Īpaši ievērojams datu kopas aspekts ir tas, ka 40 procenti jautājumu nāk no matemātikas jomas. Šos jautājumus var izmantot kā pamatu promocijas darbiem. Turklāt izrādās, ka jo abstraktāki ir jautājumi, jo labāk var izgaismot AI argumentācijas ķēdes. Neskatoties uz šo sarežģīto struktūru, pārbaudītie AI spēja jēgpilni atbildēt tikai uz deviņiem procentiem jautājumu. Modeļi konsekventi sniedza nederīgas atbildes uz atlikušajiem jautājumiem. Tas atklāj izaicinājumus mākslīgā intelekta intelekta un uz problēmām orientēto spēju pārbaudē.

Etalonu nozīme AI attīstībā

“Cilvēces pēdējā eksāmena” (HLE) ieviešana iezīmē svarīgu soli lielo valodu modeļu novērtēšanā. Iepriekšējie kritēriji bieži vien nav bijuši pietiekami, lai novērtētu ievērojamu modeļu progresu, jo pašreizējie kritēriji, piemēram, MMLU, atbilst modeļiem ar precizitāti, kas pārsniedz 90 procentus. Tomēr šis augstais precizitātes līmenis ierobežo iespēju reālistiski novērtēt modeļu faktiskās iespējas. Tāpēc “HLE” datu kopas mērķis ir būt pēdējais slēgtais akadēmiskais vērtējums, kas aptver plašu priekšmetu klāstu.

“HLE” kopumā ietver 3000 jautājumu dažādās disciplīnās, tostarp matemātikā, humanitārajās zinātnēs un dabaszinātnēs. Datu kopā ir gan atbilžu varianti, gan īsu atbilžu jautājumi, kas piemēroti automātiskai vērtēšanai. Katram jautājumam ir skaidrs, pārbaudāms risinājums, un uz to nevar ātri atbildēt, vienkārši meklējot internetā. Pašreizējie valodu modeļi uzrāda vāju precizitāti un kalibrēšanu, pārbaudot ar “HLE”, norādot uz ievērojamu atšķirību starp modeļu iespējām un cilvēku ekspertu veiktspēju slēgta tipa akadēmiskos jautājumos. Tas izceļ problēmas, ar kurām jāsaskaras, novērtējot pašreizējo AI attīstību, un uzsver steidzamo nepieciešamību nepārtraukti pārskatīt progresu šajā jomā.

Interesentiem “HLE” ir publiski pieejams, un lietotāji tiek aicināti citēt darbu, kad datu kopa tiek izmantota pētījumos. Šī iniciatīva varētu palīdzēt būtiski ietekmēt nākotnes standartus un cerības attiecībā uz AI darbināmiem izglītības un novērtēšanas rīkiem. Lai turpinātu kritiski uzraudzīt attīstību mākslīgā intelekta jomā un tā veiktspēju, šādi kritēriji ir būtiski.