Az emberiség utolsó próbája: az AI esélytelen a tesztben!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

A Ruhr Egyetem Bochum részt vesz az „Emberiség utolsó vizsgáján”, amely az AI-képességek felmérésének új mércéje.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
A Ruhr Egyetem Bochum részt vesz az „Emberiség utolsó vizsgáján”, amely az AI-képességek felmérésének új mércéje.

Az emberiség utolsó próbája: az AI esélytelen a tesztben!

2025. április 1-jén bemutatták az „Emberiség utolsó vizsgája” benchmark adatkészletet, amelyet kifejezetten a generatív mesterséges intelligencia (AI) képességeinek tesztelésére terveztek. Ez az adatkészlet 550 kérdést tartalmaz több mint 70 000 beadvány közül. A bochumi Ruhr Egyetem matematikusai, Prof. Dr. Christian Stump és Prof. Dr. Alexander Ivanov három kérdéssel aktívan hozzájárultak a teszt adathalmazához. A kérdések összeállításában 50 ország mintegy 1000 szakértője vett részt. A teszt integritásának biztosítása érdekében csak még nem publikált kérdéseket választottak ki, hogy az AI-modellek ne egyszerűen az interneten keressenek válaszokat.

Különösen figyelemre méltó az adatsor, hogy a kérdések 40 százaléka a matematika területéről érkezik. Ezek a kérdések a doktori tézisek alapjául szolgálhatnak. Ezenkívül kiderül, hogy minél elvontabbak a kérdések, annál jobban megvilágíthatóak a mesterséges intelligencia érvelési láncai. A kifinomult szerkezet ellenére a tesztelt mesterséges intelligencia csak a kérdések kilenc százalékára volt képes értelmes választ adni. A modellek következetesen használhatatlan válaszokat adtak a fennmaradó kérdésekre. Ez rávilágít a mesterséges intelligenciák intelligenciájának és problémaorientált képességeinek tesztelésére vonatkozó kihívásokra.

A benchmarkok jelentősége az AI-fejlesztések szempontjából

Az „Emberiség utolsó vizsgája” (HLE) bevezetése fontos lépést jelent a nagy nyelvi modellek értékelésében. A korábbi benchmarkok gyakran nem voltak elegendőek a modellek jelentős előrehaladásának mérésére, mivel a jelenlegi referenciaértékeket, például az MMLU-t, a modellek 90 százalék feletti pontossággal teljesítik. Ez a magas szintű pontosság azonban korlátozza a modellek tényleges képességeinek reális értékelését. A „HLE” adatsor tehát az utolsó lezárt, a tantárgyak széles körét lefedő tudományos értékelés.

A „HLE” összesen 3000 kérdést tartalmaz különböző tudományterületeken, beleértve a matematikát, a bölcsészettudományt és a természettudományokat. Az adatkészlet feleletválasztós és rövid válaszszavas kérdéseket is tartalmaz, amelyek alkalmasak az automatikus osztályozásra. Minden kérdésnek van egyértelmű, ellenőrizhető megoldása, és egyszerű internetes kereséssel nem lehet gyorsan megválaszolni. A jelenlegi nyelvi modellek gyenge pontosságot és kalibrálást mutatnak a „HLE”-vel tesztelve, ami jelentős eltérést jelez a modellek képességei és a zárt végű tudományos kérdésekben nyújtott emberi szakértői teljesítmény között. Ez rávilágít azokra a kihívásokra, amelyekkel a jelenlegi mesterségesintelligencia-fejlesztés osztályozása során szembe kell nézni, és rávilágít az e területen elért haladás folyamatos felülvizsgálatának sürgős szükségére.

Az érdeklődők számára a „HLE” nyilvánosan elérhető, és a felhasználókat arra biztatjuk, hogy hivatkozzanak a munkára, amikor az adatkészletet kutatásban használják. Ez a kezdeményezés jelentősen befolyásolhatja az AI-alapú oktatási és értékelési eszközökkel kapcsolatos jövőbeli szabványokat és elvárásokat. Ahhoz, hogy továbbra is kritikusan nyomon lehessen követni a mesterséges intelligencia és annak teljesítménye terén bekövetkezett fejleményeket, elengedhetetlenek az ilyen referenciaértékek.