La prova finale dell'umanità: l'intelligenza artificiale non ha alcuna possibilità nel test!
L’Università della Ruhr di Bochum partecipa all’”Ultimo esame dell’umanità”, un nuovo punto di riferimento per valutare le capacità dell’intelligenza artificiale.

La prova finale dell'umanità: l'intelligenza artificiale non ha alcuna possibilità nel test!
Il 1 aprile 2025 è stato presentato il dataset benchmark “Humanity’s Last Exam”, appositamente progettato per testare le capacità dell’Intelligenza Artificiale Generativa (AI). Questo set di dati contiene 550 domande selezionate tra più di 70.000 invii. I matematici dell'Università della Ruhr di Bochum, il Prof. Dr. Christian Stump e il Prof. Dr. Alexander Ivanov, hanno contribuito attivamente con tre domande al set di dati del test. Alla compilazione delle domande hanno contribuito circa 1.000 esperti provenienti da 50 paesi. Per garantire l’integrità del test sono state scelte solo domande inedite in modo che i modelli di intelligenza artificiale non possano semplicemente cercare le risposte su Internet.
Un aspetto particolarmente degno di nota del set di dati è che il 40% delle domande provengono dal campo della matematica. Queste domande possono potenzialmente essere utilizzate come base per tesi di dottorato. Inoltre si scopre che quanto più astratte sono le domande, tanto meglio si possono illuminare le catene di ragionamento delle IA. Nonostante questa struttura sofisticata, le IA testate sono state in grado di rispondere in modo significativo solo al 9% delle domande. I modelli hanno costantemente fornito risposte inutilizzabili alle restanti domande. Ciò rivela le sfide nel testare l’intelligenza e le capacità di orientamento ai problemi delle intelligenze artificiali.
Importanza dei parametri di riferimento per gli sviluppi dell'IA
L’introduzione dell’“Ultimo Esame dell’Umanità” (HLE) segna un passo importante nella valutazione di grandi modelli linguistici. I parametri di riferimento precedenti sono stati spesso insufficienti per misurare progressi significativi nei modelli, poiché i parametri di riferimento attuali come MMLU sono soddisfatti dai modelli con una precisione superiore al 90%. Tuttavia, questo elevato livello di accuratezza limita la capacità di valutare realisticamente le effettive capacità dei modelli. Il set di dati “HLE” mira quindi ad essere l’ultima valutazione accademica chiusa che copre una vasta gamma di argomenti.
“HLE” comprende un totale di 3.000 domande in varie discipline, tra cui matematica, scienze umane e scienze. Il set di dati contiene domande a scelta multipla e a risposta breve adatte per la valutazione automatica. Ogni domanda ha una soluzione chiara e verificabile e non è possibile rispondere rapidamente con una semplice ricerca su Internet. Gli attuali modelli linguistici mostrano scarsa precisione e calibrazione quando testati con “HLE”, indicando un divario significativo tra le capacità dei modelli e le prestazioni degli esperti umani su questioni accademiche a risposta chiusa. Ciò evidenzia le sfide affrontate nel valutare l’attuale sviluppo dell’IA ed evidenzia l’urgente necessità di rivedere continuamente i progressi in questo settore.
Per chi fosse interessato, “HLE” è disponibile al pubblico e gli utenti sono incoraggiati a citare il lavoro quando il set di dati viene utilizzato nella ricerca. Questa iniziativa potrebbe contribuire a influenzare in modo significativo gli standard e le aspettative futuri per gli strumenti di istruzione e valutazione basati sull’intelligenza artificiale. Per continuare a monitorare criticamente gli sviluppi nel campo dell’IA e le sue prestazioni, tali parametri di riferimento sono essenziali.