Testul final al umanității: AI nu are nicio șansă la test!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Universitatea Ruhr Bochum participă la „Ultimul examen al umanității”, un nou punct de referință pentru evaluarea capabilităților AI.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Universitatea Ruhr Bochum participă la „Ultimul examen al umanității”, un nou punct de referință pentru evaluarea capabilităților AI.

Testul final al umanității: AI nu are nicio șansă la test!

La 1 aprilie 2025, a fost prezentat setul de date de referință „Umanity’s Last Exam”, conceput special pentru a testa capacitățile Inteligenței Artificiale Generative (AI). Acest set de date conține 550 de întrebări selectate din peste 70.000 de trimiteri. Matematicienii de la Universitatea Ruhr Bochum, Prof. Dr. Christian Stump și Prof. Dr. Alexander Ivanov, au contribuit activ cu trei întrebări la setul de date de testare. Aproximativ 1.000 de experți din 50 de țări au contribuit la compilarea întrebărilor. Pentru a asigura integritatea testului, au fost alese doar întrebări nepublicate, astfel încât modelele AI să nu poată căuta pur și simplu răspunsurile pe Internet.

Un aspect deosebit de notabil al setului de date este că 40% dintre întrebări provin din domeniul matematicii. Aceste întrebări au potențialul de a fi folosite ca bază pentru teze de doctorat. În plus, se dovedește că, cu cât întrebările sunt mai abstracte, cu atât lanțurile de raționament ale IA pot fi mai bine iluminate. În ciuda acestei structuri sofisticate, AI-urile testate au putut să răspundă în mod semnificativ doar la nouă la sută din întrebări. Modelele au oferit în mod constant răspunsuri inutilizabile la întrebările rămase. Acest lucru dezvăluie provocările în testarea inteligenței și a capabilităților orientate spre probleme ale inteligenței artificiale.

Importanța reperelor pentru dezvoltarea AI

Introducerea „Ultimul examen al umanității” (HLE) marchează un pas important în evaluarea modelelor de limbaj mari. Criteriile de referință anterioare au fost adesea insuficiente pentru a măsura progresul semnificativ în modele, deoarece criteriile de referință actuale, cum ar fi MMLU, sunt îndeplinite de modele cu o precizie de peste 90%. Cu toate acestea, acest nivel ridicat de precizie limitează capacitatea de a evalua realist capacitățile reale ale modelelor. Prin urmare, setul de date „HLE” își propune să fie ultima evaluare academică închisă care acoperă o gamă largă de subiecte.

„HLE” include un total de 3.000 de întrebări la diferite discipline, inclusiv matematică, științe umaniste și științe. Setul de date conține atât întrebări cu răspunsuri multiple, cât și întrebări cu răspuns scurt, potrivite pentru notarea automată. Fiecare întrebare are o soluție clară, verificabilă și nu poate fi răspuns rapid printr-o simplă căutare pe internet. Modelele lingvistice actuale arată o acuratețe și o calibrare slabă atunci când sunt testate cu „HLE”, indicând un decalaj semnificativ între capacitățile modelelor și performanța experților umani la întrebările academice închise. Acest lucru evidențiază provocările cu care se confruntă în evaluarea dezvoltării actuale a IA și evidențiază necesitatea urgentă de a revizui în mod continuu progresul în acest domeniu.

Pentru cei interesați, „HLE” este disponibil publicului, iar utilizatorii sunt încurajați să citeze lucrarea atunci când setul de date este utilizat în cercetare. Această inițiativă ar putea contribui la influențarea semnificativă a standardelor și așteptărilor viitoare pentru instrumentele de educație și evaluare bazate pe inteligență artificială. Pentru a continua să monitorizeze critic evoluțiile din domeniul AI și performanța acesteia, astfel de repere sunt esențiale.