Le test final de l’humanité : l’IA n’a aucune chance dans le test !
L’Université de la Ruhr à Bochum participe au « Dernier examen de l’humanité », une nouvelle référence pour évaluer les capacités de l’IA.

Le test final de l’humanité : l’IA n’a aucune chance dans le test !
Le 1er avril 2025, l’ensemble de données de référence « Le dernier examen de l’humanité » a été présenté, spécialement conçu pour tester les capacités de l’intelligence artificielle générative (IA). Cet ensemble de données contient 550 questions sélectionnées parmi plus de 70 000 soumissions. Les mathématiciens de l'Université de la Ruhr à Bochum, le Prof. Dr. Christian Stump et le Prof. Dr. Alexander Ivanov, ont activement contribué à trois questions à l'ensemble des données de test. Environ 1 000 experts de 50 pays ont contribué à la rédaction des questions. Pour garantir l'intégrité du test, seules des questions non publiées ont été choisies afin que les modèles d'IA ne puissent pas simplement rechercher les réponses sur Internet.
Un aspect particulièrement remarquable de l’ensemble de données est que 40 pour cent des questions proviennent du domaine des mathématiques. Ces questions ont le potentiel de servir de base à des thèses de doctorat. De plus, il s’avère que plus les questions sont abstraites, mieux les chaînes de raisonnement des IA peuvent être éclairées. Malgré cette structure sophistiquée, les IA testées n’ont pu répondre de manière significative qu’à neuf pour cent des questions. Les modèles ont systématiquement fourni des réponses inutilisables aux questions restantes. Cela révèle les défis liés aux tests de l’intelligence et des capacités orientées problèmes des intelligences artificielles.
Importance des benchmarks pour les développements de l’IA
L’introduction du « Dernier examen de l’humanité » (HLE) marque une étape importante dans l’évaluation des grands modèles linguistiques. Les références précédentes se sont souvent révélées insuffisantes pour mesurer les progrès significatifs des modèles, car les références actuelles telles que MMLU sont respectées par les modèles avec une précision de plus de 90 %. Cependant, ce haut niveau de précision limite la capacité d’évaluer de manière réaliste les capacités réelles des modèles. L’ensemble de données « HLE » se veut donc la dernière évaluation académique fermée couvrant un large éventail de matières.
« HLE » comprend un total de 3 000 questions dans diverses disciplines, dont les mathématiques, les sciences humaines et les sciences. L'ensemble de données contient à la fois des questions à choix multiples et des questions à réponse courte adaptées à la notation automatique. Chaque question a une solution claire et vérifiable et il est impossible de répondre rapidement par une simple recherche sur Internet. Les modèles de langage actuels montrent une précision et un calibrage médiocres lorsqu'ils sont testés avec « HLE », indiquant un écart significatif entre les capacités des modèles et les performances des experts humains sur des questions académiques fermées. Cela met en évidence les défis rencontrés dans l’évaluation du développement actuel de l’IA et souligne le besoin urgent d’évaluer continuellement les progrès dans ce domaine.
Pour les personnes intéressées, « HLE » est accessible au public et les utilisateurs sont encouragés à citer les travaux lorsque l'ensemble de données est utilisé dans la recherche. Cette initiative pourrait contribuer à influencer de manière significative les futures normes et attentes en matière d’outils d’éducation et d’évaluation basés sur l’IA. Afin de continuer à suivre de manière critique les évolutions dans le domaine de l’IA et ses performances, de tels benchmarks sont essentiels.