Posledný test ľudstva: AI nemá v teste žiadnu šancu!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Porúrska univerzita v Bochume sa zúčastňuje na „poslednej skúške ľudstva“, čo je nový štandard na hodnotenie schopností umelej inteligencie.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Porúrska univerzita v Bochume sa zúčastňuje na „poslednej skúške ľudstva“, čo je nový štandard na hodnotenie schopností umelej inteligencie.

Posledný test ľudstva: AI nemá v teste žiadnu šancu!

1. apríla 2025 bol predstavený referenčný súbor údajov „Humanity’s Last Exam“, špeciálne navrhnutý na testovanie schopností generatívnej umelej inteligencie (AI). Tento súbor údajov obsahuje 550 otázok vybraných z viac ako 70 000 príspevkov. Matematici z Ruhr University Bochum, Prof. Dr. Christian Stump a Prof. Dr. Alexander Ivanov, aktívne prispeli tromi otázkami do súboru testovacích údajov. Na zostavení otázok sa podieľalo približne 1 000 odborníkov z 50 krajín. Na zabezpečenie integrity testu boli vybrané iba nepublikované otázky, aby modely AI nemohli jednoducho hľadať odpovede na internete.

Obzvlášť pozoruhodným aspektom súboru údajov je, že 40 percent otázok pochádza z oblasti matematiky. Tieto otázky môžu byť použité ako základ pre doktorandské práce. Navyše sa ukazuje, že čím abstraktnejšie sú otázky, tým lepšie môžu byť osvetlené reťazce uvažovania AI. Napriek tejto sofistikovanej štruktúre boli testované AI schopné zmysluplne odpovedať len na deväť percent otázok. Modely konzistentne poskytovali nepoužiteľné odpovede na zostávajúce otázky. To odhaľuje výzvy pri testovaní inteligencie a schopností umelých inteligencií orientovaných na problémy.

Význam referenčných hodnôt pre vývoj AI

Zavedenie „Humanity’s Last Exam“ (HLE) predstavuje dôležitý krok pri hodnotení veľkých jazykových modelov. Predchádzajúce referenčné hodnoty boli často nedostatočné na meranie významného pokroku v modeloch, pretože súčasné referenčné hodnoty, ako je MMLU, spĺňajú modely s presnosťou viac ako 90 percent. Táto vysoká úroveň presnosti však obmedzuje schopnosť reálne posúdiť skutočné schopnosti modelov. Cieľom súboru údajov „HLE“ je preto byť posledným uzavretým akademickým hodnotením pokrývajúcim široké spektrum predmetov.

„HLE“ obsahuje celkovo 3 000 otázok z rôznych disciplín vrátane matematiky, humanitných vied a prírodných vied. Súbor údajov obsahuje otázky s možnosťou výberu z viacerých odpovedí a otázky s krátkou odpoveďou vhodné na automatické hodnotenie. Každá otázka má jasné, overiteľné riešenie a nedá sa na ňu rýchlo odpovedať jednoduchým internetovým vyhľadávaním. Súčasné jazykové modely vykazujú slabú presnosť a kalibráciu pri testovaní pomocou „HLE“, čo naznačuje značný rozdiel medzi schopnosťami modelov a ľudským expertným výkonom v uzavretých akademických otázkach. To poukazuje na výzvy, ktorým čelíme pri hodnotení súčasného vývoja AI, a zdôrazňuje naliehavú potrebu neustále kontrolovať pokrok v tejto oblasti.

Pre záujemcov je „HLE“ verejne dostupné a používateľom sa odporúča citovať prácu, keď sa súbor údajov používa vo výskume. Táto iniciatíva by mohla výrazne pomôcť ovplyvniť budúce štandardy a očakávania týkajúce sa vzdelávacích a hodnotiacich nástrojov založených na AI. Aby bolo možné pokračovať v kritickom monitorovaní vývoja v oblasti AI a jej výkonnosti, sú takéto referenčné hodnoty nevyhnutné.