Inimkonna viimane test: AI-l pole testis mingit võimalust!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Ruhri Ülikool Bochum osaleb "Inimkonna viimasel eksamil", mis on tehisintellekti võimekuse hindamise uus etalon.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Ruhri Ülikool Bochum osaleb "Inimkonna viimasel eksamil", mis on tehisintellekti võimekuse hindamise uus etalon.

Inimkonna viimane test: AI-l pole testis mingit võimalust!

1. aprillil 2025 esitleti inimkonna viimase eksami võrdlusandmestikku, mis on spetsiaalselt loodud generatiivse tehisintellekti (AI) võimekuse testimiseks. See andmestik sisaldab 550 küsimust, mis on valitud enam kui 70 000 esildisest. Ruhri ülikooli Bochumi matemaatikud, prof dr Christian Stump ja prof dr Alexander Ivanov, panustasid testiandmete kogumisse aktiivselt kolme küsimusega. Küsimuste koostamisel osales ligikaudu 1000 eksperti 50 riigist. Testi terviklikkuse tagamiseks valiti ainult avaldamata küsimused, et tehisintellekti mudelid ei saaks lihtsalt Internetist vastuseid otsida.

Eriti tähelepanuväärne andmestiku aspekt on see, et 40 protsenti küsimustest pärineb matemaatika valdkonnast. Neid küsimusi on võimalik kasutada doktoritööde aluseks. Lisaks selgub, et mida abstraktsemad on küsimused, seda paremini saab valgustada tehisintellektide mõtteahelaid. Hoolimata sellest keerukast struktuurist suutsid testitud tehisintellektid sisukalt vastata vaid üheksale protsendile küsimustest. Mudelid andsid ülejäänud küsimustele järjekindlalt kasutuskõlbmatuid vastuseid. See paljastab väljakutsed tehisintellektide intelligentsuse ja probleemidele orienteeritud võimekuse testimisel.

Võrdlusnäitajate tähtsus AI arenduste jaoks

Inimkonna viimase eksami (HLE) kasutuselevõtt tähistab olulist sammu suurte keelemudelite hindamisel. Varasemad võrdlusnäitajad on sageli olnud ebapiisavad, et mõõta mudelite märkimisväärset edu, kuna praegused kriteeriumid, nagu MMLU, vastavad mudelitele üle 90-protsendilise täpsusega. See kõrge täpsus piirab aga võimalust hinnata realistlikult mudelite tegelikke võimeid. Seetõttu on „HLE” andmekogu eesmärk olla viimane suletud akadeemiline hinnang, mis hõlmab paljusid õppeaineid.

“HLE” sisaldab kokku 3000 küsimust erinevatel erialadel, sealhulgas matemaatikas, humanitaarteadustes ja loodusteadustes. Andmestik sisaldab nii valikvastustega kui ka lühivastusega küsimusi, mis sobivad automaatseks hindamiseks. Igal küsimusel on selge, kontrollitav lahendus ja sellele ei saa lihtsa Interneti-otsingu abil kiiresti vastata. Praegused keelemudelid näitavad HLE-ga testimisel halba täpsust ja kalibreerimist, mis näitab märkimisväärset lõhet mudelite võimete ja inimeste ekspertide jõudluse vahel suletud akadeemilistes küsimustes. See tõstab esile väljakutsed, millega seisavad silmitsi praeguse tehisintellekti arenduse hindamisel, ja rõhutab tungivat vajadust selles valdkonnas tehtud edusamme pidevalt üle vaadata.

Huvilistele on "HLE" avalikult saadaval ja kasutajatel soovitatakse andmestikku uurimistöös kasutatud töö tsiteerida. See algatus võib aidata oluliselt mõjutada tulevasi standardeid ja ootusi tehisintellektil põhinevatele haridus- ja hindamisvahenditele. Selleks, et jätkuvalt kriitiliselt jälgida tehisintellekti valdkonna arenguid ja selle toimivust, on sellised võrdlusalused hädavajalikud.