Poslední test lidstva: AI nemá v testu šanci!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Ruhr University Bochum se účastní „Humanity’s Last Exam“, nového měřítka pro hodnocení schopností umělé inteligence.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Ruhr University Bochum se účastní „Humanity’s Last Exam“, nového měřítka pro hodnocení schopností umělé inteligence.

Poslední test lidstva: AI nemá v testu šanci!

1. dubna 2025 byla představena referenční datová sada „Humanity’s Last Exam“, která byla speciálně navržena k testování schopností generativní umělé inteligence (AI). Tento datový soubor obsahuje 550 otázek vybraných z více než 70 000 příspěvků. Matematici z Ruhr University Bochum, prof. Dr. Christian Stump a prof. Dr. Alexander Ivanov, aktivně přispěli třemi otázkami do souboru testovacích dat. Na sestavení otázek se podílelo kolem 1000 odborníků z 50 zemí. Aby byla zajištěna integrita testu, byly vybrány pouze nepublikované otázky, aby modely AI nemohly jednoduše hledat odpovědi na internetu.

Zvláště pozoruhodným aspektem souboru dat je, že 40 procent otázek pochází z oblasti matematiky. Tyto otázky mohou být využity jako podklad pro doktorské práce. Navíc se ukazuje, že čím abstraktnější jsou otázky, tím lépe lze osvětlit řetězce uvažování AI. Navzdory této sofistikované struktuře byly testované AI schopny smysluplně odpovědět pouze na devět procent otázek. Modely konzistentně poskytovaly nepoužitelné odpovědi na zbývající otázky. To odhaluje výzvy při testování inteligence a schopností umělých inteligencí zaměřených na problémy.

Význam benchmarků pro vývoj AI

Zavedení „Humanity’s Last Exam“ (HLE) představuje důležitý krok v hodnocení velkých jazykových modelů. Předchozí benchmarky často nestačily k měření významného pokroku v modelech, protože současné benchmarky, jako je MMLU, splňují modely s přesností více než 90 procent. Tato vysoká úroveň přesnosti však omezuje schopnost realisticky posoudit skutečné schopnosti modelů. Datový soubor „HLE“ si proto klade za cíl být posledním uzavřeným akademickým hodnocením pokrývajícím širokou škálu předmětů.

„HLE“ zahrnuje celkem 3000 otázek z různých oborů, včetně matematiky, humanitních věd a přírodních věd. Datový soubor obsahuje otázky s možností výběru z více odpovědí i otázky s krátkou odpovědí vhodné pro automatické hodnocení. Každá otázka má jasné, ověřitelné řešení a nelze na ni rychle odpovědět jednoduchým vyhledáváním na internetu. Současné jazykové modely vykazují špatnou přesnost a kalibraci při testování pomocí „HLE“, což naznačuje významný rozdíl mezi schopnostmi modelů a lidským expertním výkonem v uzavřených akademických otázkách. To zdůrazňuje výzvy, kterým čelíme při hodnocení současného vývoje AI, a zdůrazňuje naléhavou potřebu neustále přezkoumávat pokrok v této oblasti.

Pro zájemce je „HLE“ veřejně dostupné a uživatelům se doporučuje, aby citovali práci, když je datový soubor používán ve výzkumu. Tato iniciativa by mohla významně pomoci ovlivnit budoucí standardy a očekávání týkající se nástrojů vzdělávání a hodnocení využívajících umělou inteligenci. Aby bylo možné i nadále kriticky sledovat vývoj v oblasti umělé inteligence a její výkonnosti, jsou taková měřítka nezbytná.