Inimkonna viimane test: AI-l pole testis mingit võimalust!

Franziska Richter

Profil E-Mail

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 01.04.2025

Sprache:

Ruhri Ülikool Bochum osaleb "Inimkonna viimasel eksamil", mis on tehisintellekti võimekuse hindamise uus etalon.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten. — Ruhri Ülikool Bochum osaleb "Inimkonna viimasel eksamil", mis on tehisintellekti võimekuse hindamise uus etalon.

1. aprillil 2025 esitleti inimkonna viimase eksami võrdlusandmestikku, mis on spetsiaalselt loodud generatiivse tehisintellekti (AI) võimekuse testimiseks. See andmestik sisaldab 550 küsimust, mis on valitud enam kui 70 000 esildisest. Ruhri ülikooli Bochumi matemaatikud, prof dr Christian Stump ja prof dr Alexander Ivanov, panustasid testiandmete kogumisse aktiivselt kolme küsimusega. Küsimuste koostamisel osales ligikaudu 1000 eksperti 50 riigist. Testi terviklikkuse tagamiseks valiti ainult avaldamata küsimused, et tehisintellekti mudelid ei saaks lihtsalt Internetist vastuseid otsida.

Eriti tähelepanuväärne andmestiku aspekt on see, et 40 protsenti küsimustest pärineb matemaatika valdkonnast. Neid küsimusi on võimalik kasutada doktoritööde aluseks. Lisaks selgub, et mida abstraktsemad on küsimused, seda paremini saab valgustada tehisintellektide mõtteahelaid. Hoolimata sellest keerukast struktuurist suutsid testitud tehisintellektid sisukalt vastata vaid üheksale protsendile küsimustest. Mudelid andsid ülejäänud küsimustele järjekindlalt kasutuskõlbmatuid vastuseid. See paljastab väljakutsed tehisintellektide intelligentsuse ja probleemidele orienteeritud võimekuse testimisel.

Võrdlusnäitajate tähtsus AI arenduste jaoks

Inimkonna viimase eksami (HLE) kasutuselevõtt tähistab olulist sammu suurte keelemudelite hindamisel. Varasemad võrdlusnäitajad on sageli olnud ebapiisavad, et mõõta mudelite märkimisväärset edu, kuna praegused kriteeriumid, nagu MMLU, vastavad mudelitele üle 90-protsendilise täpsusega. See kõrge täpsus piirab aga võimalust hinnata realistlikult mudelite tegelikke võimeid. Seetõttu on „HLE” andmekogu eesmärk olla viimane suletud akadeemiline hinnang, mis hõlmab paljusid õppeaineid.

“HLE” sisaldab kokku 3000 küsimust erinevatel erialadel, sealhulgas matemaatikas, humanitaarteadustes ja loodusteadustes. Andmestik sisaldab nii valikvastustega kui ka lühivastusega küsimusi, mis sobivad automaatseks hindamiseks. Igal küsimusel on selge, kontrollitav lahendus ja sellele ei saa lihtsa Interneti-otsingu abil kiiresti vastata. Praegused keelemudelid näitavad HLE-ga testimisel halba täpsust ja kalibreerimist, mis näitab märkimisväärset lõhet mudelite võimete ja inimeste ekspertide jõudluse vahel suletud akadeemilistes küsimustes. See tõstab esile väljakutsed, millega seisavad silmitsi praeguse tehisintellekti arenduse hindamisel, ja rõhutab tungivat vajadust selles valdkonnas tehtud edusamme pidevalt üle vaadata.

Huvilistele on "HLE" avalikult saadaval ja kasutajatel soovitatakse andmestikku uurimistöös kasutatud töö tsiteerida. See algatus võib aidata oluliselt mõjutada tulevasi standardeid ja ootusi tehisintellektil põhinevatele haridus- ja hindamisvahenditele. Selleks, et jätkuvalt kriitiliselt jälgida tehisintellekti valdkonna arenguid ja selle toimivust, on sellised võrdlusalused hädavajalikud.

Quellen:

Inimkonna viimane test: AI-l pole testis mingit võimalust!

Võrdlusnäitajate tähtsus AI arenduste jaoks

Weitersagen oder Speichern

Das Neueste

Start-up Shortcuts: Tipps für Gründer am 23. Oktober in Lübeck!

KI-Reallabor Agrar: Revolution für die Landwirtschaft in Osnabrück!

Großbrand in Bielefeld: Feuerwehr im Alarmmodus – Anwohner evakuiert!

Samstags-Uni in Freiburg: Entdecken Sie die Kulturgeschichte der Stadt!

Hilfe für Eltern: Tipps zu Mutismus und Angststörungen bei Kindern!