Ihmiskunnan viimeinen testi: tekoälyllä ei ole mahdollisuuksia testissä!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Ruhrin yliopisto Bochum osallistuu "Ihmiskunnan viimeiseen kokeeseen", joka on uusi vertailukohta tekoälykyvyn arvioinnissa.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Ruhrin yliopisto Bochum osallistuu "Ihmiskunnan viimeiseen kokeeseen", joka on uusi vertailukohta tekoälykyvyn arvioinnissa.

Ihmiskunnan viimeinen testi: tekoälyllä ei ole mahdollisuuksia testissä!

1. huhtikuuta 2025 esiteltiin "Humanity's Last Exam" -vertailutietojoukko, joka on erityisesti suunniteltu testaamaan generatiivisen tekoälyn (AI) ominaisuuksia. Tämä tietojoukko sisältää 550 kysymystä, jotka on valittu yli 70 000 vastauksesta. Ruhrin yliopiston Bochumin matemaatikot, prof. tohtori Christian Stump ja professori tohtori Alexander Ivanov, osallistuivat aktiivisesti kolmeen kysymykseen testiaineistoon. Noin 1 000 asiantuntijaa 50 maasta osallistui kysymysten laatimiseen. Testin eheyden varmistamiseksi valittiin vain julkaisemattomia kysymyksiä, jotta tekoälymallit eivät voi vain etsiä vastauksia Internetistä.

Erityisen huomionarvoinen näkökohta aineistossa on, että 40 prosenttia kysymyksistä tulee matematiikan alalta. Näitä kysymyksiä voidaan käyttää väitöskirjojen pohjana. Lisäksi käy ilmi, että mitä abstraktimpia kysymykset ovat, sitä paremmin tekoälyjen päättelyketjut voidaan valaista. Tästä hienostuneesta rakenteesta huolimatta testatut tekoälyt pystyivät vastaamaan mielekkäästi vain yhdeksään prosenttiin kysymyksistä. Mallit antoivat jatkuvasti käyttökelvottomia vastauksia jäljellä oleviin kysymyksiin. Tämä paljastaa haasteita tekoälyjen älykkyyden ja ongelmalähtöisten kykyjen testaamisessa.

Vertailuarvojen merkitys tekoälyn kehitykselle

"Humanity's Last Exam" (HLE) -testin käyttöönotto on tärkeä askel suurten kielimallien arvioinnissa. Aiemmat vertailuarvot ovat usein olleet riittämättömiä mittaamaan mallien merkittävää kehitystä, sillä nykyiset vertailuarvot, kuten MMLU, täyttävät mallit yli 90 prosentin tarkkuudella. Tämä korkea tarkkuustaso kuitenkin rajoittaa kykyä arvioida realistisesti mallien todellisia ominaisuuksia. "HLE"-aineiston tarkoituksena on siksi olla viimeinen suljettu akateeminen arviointi, joka kattaa laajan joukon aiheita.

"HLE" sisältää yhteensä 3000 kysymystä eri tieteenaloilla, mukaan lukien matematiikka, humanistiset tieteet ja luonnontieteet. Aineisto sisältää sekä monivalinta- että lyhytvastauskysymyksiä, jotka soveltuvat automaattiseen arvostukseen. Jokaiseen kysymykseen on selkeä, todennettavissa oleva ratkaisu, eikä siihen voi vastata nopeasti yksinkertaisella Internet-haulla. Nykyiset kielimallit osoittavat huonoa tarkkuutta ja kalibrointia "HLE:llä" testattuna, mikä osoittaa merkittävän eron mallien kykyjen ja ihmisen asiantuntijan suorituskyvyn välillä suljetuissa akateemisissa kysymyksissä. Tämä korostaa haasteita, joita kohtaat nykyisen tekoälykehityksen arvioinnissa, ja korostaa kiireellistä tarvetta jatkuvasti tarkastella edistymistä tällä alalla.

Kiinnostuneille "HLE" on julkisesti saatavilla ja käyttäjiä kehotetaan lainaamaan työtä, kun aineistoa käytetään tutkimuksessa. Tämä aloite voi auttaa merkittävästi vaikuttamaan tekoälypohjaisten koulutus- ja arviointityökalujen tuleviin standardeihin ja odotuksiin. Tällaiset vertailuarvot ovat välttämättömiä, jotta voidaan jatkaa kriittisesti tekoälyn ja sen suorituskyvyn kehitystä.