La prueba final de la humanidad: ¡la IA no tiene ninguna posibilidad en la prueba!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

La Universidad del Ruhr en Bochum participa en el "Último examen de la humanidad", un nuevo punto de referencia para evaluar las capacidades de la IA.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
La Universidad del Ruhr en Bochum participa en el "Último examen de la humanidad", un nuevo punto de referencia para evaluar las capacidades de la IA.

La prueba final de la humanidad: ¡la IA no tiene ninguna posibilidad en la prueba!

El 1 de abril de 2025, se presentó el conjunto de datos de referencia “El último examen de la humanidad”, diseñado específicamente para probar las capacidades de la Inteligencia Artificial Generativa (IA). Este conjunto de datos contiene 550 preguntas seleccionadas de más de 70.000 envíos. Los matemáticos de la Universidad del Ruhr en Bochum, Prof. Dr. Christian Stump y Prof. Dr. Alexander Ivanov, contribuyeron activamente con tres preguntas al conjunto de datos de prueba. Alrededor de 1.000 expertos de 50 países contribuyeron a la recopilación de las preguntas. Para garantizar la integridad de la prueba, solo se eligieron preguntas inéditas para que los modelos de IA no puedan simplemente buscar las respuestas en Internet.

Un aspecto particularmente notable del conjunto de datos es que el 40 por ciento de las preguntas provienen del campo de las matemáticas. Estas preguntas tienen el potencial de usarse como base para tesis doctorales. Además, resulta que cuanto más abstractas sean las preguntas, mejor se podrán iluminar las cadenas de razonamiento de las IA. A pesar de esta sofisticada estructura, las IA probadas sólo pudieron responder de manera significativa al nueve por ciento de las preguntas. Los modelos proporcionaron consistentemente respuestas inutilizables a las preguntas restantes. Esto revela los desafíos a la hora de probar la inteligencia y las capacidades orientadas a problemas de las inteligencias artificiales.

Importancia de los puntos de referencia para los desarrollos de IA

La introducción del “Último examen de la humanidad” (HLE) marca un paso importante en la evaluación de modelos de lenguaje grandes. Los puntos de referencia anteriores a menudo han sido insuficientes para medir un progreso significativo en los modelos, ya que los modelos cumplen con los puntos de referencia actuales, como MMLU, con más del 90 por ciento de precisión. Sin embargo, este alto nivel de precisión limita la capacidad de evaluar de manera realista las capacidades reales de los modelos. Por lo tanto, el conjunto de datos “HLE” pretende ser la última evaluación académica cerrada que abarque una amplia gama de temas.

“HLE” incluye un total de 3.000 preguntas en diversas disciplinas, incluidas matemáticas, humanidades y ciencias. El conjunto de datos contiene preguntas de opción múltiple y de respuesta corta adecuadas para la calificación automática. Cada pregunta tiene una solución clara y verificable y no se puede responder rápidamente con una simple búsqueda en Internet. Los modelos de lenguaje actuales muestran una precisión y calibración deficientes cuando se prueban con “HLE”, lo que indica una brecha significativa entre las capacidades de los modelos y el desempeño humano experto en preguntas académicas cerradas. Esto resalta los desafíos que enfrentamos al calificar el desarrollo actual de la IA y resalta la necesidad urgente de revisar continuamente el progreso en esta área.

Para aquellos interesados, "HLE" está disponible públicamente y se anima a los usuarios a citar el trabajo cuando el conjunto de datos se utilice en una investigación. Esta iniciativa podría ayudar a influir significativamente en los estándares y expectativas futuros para las herramientas de educación y evaluación basadas en IA. Para seguir monitoreando críticamente los avances en el campo de la IA y su desempeño, estos puntos de referencia son esenciales.