
Am 1. April 2025 wurde der Benchmark-Datensatz „Humanity’s Last Exam“ präsentiert, der speziell entwickelt wurde, um die Fähigkeiten von Generativen Künstlichen Intelligenzen (KI) zu testen. Dieser Datensatz enthält 550 Fragen, die aus mehr als 70.000 Einreichungen ausgewählt wurden. Die Mathematiker der Ruhr-Universität Bochum, Prof. Dr. Christian Stump und Prof. Dr. Alexander Ivanov, haben dabei aktiv drei Fragen für den Prüfdatensatz beigesteuert. Rund 1.000 Expert*innen aus 50 Ländern haben insgesamt zur Zusammenstellung der Fragen beigetragen. Um die Integrität des Tests zu gewährleisten, wurden ausschließlich unveröffentlichte Fragen gewählt, sodass KI-Modelle die Antworten nicht einfach im Internet suchen können.
Ein besonders bemerkenswerter Aspekt des Datensatzes ist, dass 40 Prozent der Fragen aus dem Bereich Mathematik stammen. Diese Fragen haben das Potenzial, als Grundlage für Doktorarbeiten genutzt zu werden. Darüber hinaus zeigt sich, dass je abstrakter die Fragen sind, desto besser die Argumentationsketten der KIs beleuchtet werden können. Trotz dieser anspruchsvollen Struktur waren die getesteten KIs lediglich in der Lage, neun Prozent der Fragen sinnvoll zu beantworten. Auf die übrigen Fragen lieferten die Modelle durchweg unbrauchbare Antworten. Dies offenbart die Herausforderungen, die bei der Überprüfung der Intelligenz und problemorientierten Fähigkeiten von Künstlichen Intelligenzen bestehen.
Bedeutung von Benchmarks für KI-Entwicklungen
Die Einführung von „Humanity’s Last Exam“ (HLE) markiert einen wichtigen Schritt in der Evaluation von großen Sprachmodellen. Bisherige Benchmarks haben oft nicht ausgereicht, um signifikante Fortschritte der Modelle zu messen, da aktuelle Benchmarks wie MMLU von den Modellen mit über 90 Prozent Genauigkeit erfüllt werden. Diese hohe Genauigkeit beschränkt jedoch die Möglichkeit, die tatsächlichen Fähigkeiten der Modelle realistisch zu bewerten. Der Datensatz „HLE“ hat sich daher zum Ziel gesetzt, die letzte geschlossene akademische Bewertung zu sein, die ein breites Fächerspektrum abdeckt.
„HLE“ umfasst insgesamt 3.000 Fragen in verschiedenen Disziplinen, einschließlich Mathematik, Geistes- und Naturwissenschaften. Der Datensatz enthält sowohl Multiple-Choice- als auch Kurzantwortfragen, die sich für automatisches Grading eignen. Jede Frage hat eine eindeutige, überprüfbare Lösung und kann nicht durch eine einfache Internetrecherche schnell beantwortet werden. Die aktuellen Sprachmodelle zeigen in Tests mit „HLE“ eine geringe Genauigkeit und Kalibrierung, was auf eine beträchtliche Diskrepanz zwischen den Fähigkeiten der Modelle und der menschlichen Expertenleistung bei geschlossenen akademischen Fragen hinweist. Dies verdeutlicht die Herausforderungen, die bei der Notenskala der aktuellen KI-Entwicklung zu bewältigen sind, und hebt die dringende Notwendigkeit hervor, den Fortschritt in diesem Bereich kontinuierlich zu überprüfen.
Für Interessierte ist „HLE“ öffentlich zugänglich und Nutzer werden ermutigt, die Arbeit zu zitieren, wenn der Datensatz in Forschungsarbeiten verwendet wird. Diese Initiative könnte dazu beitragen, die zukünftigen Standards und Erwartungen an KI-gestützte Bildungs- und Assessmenttools maßgeblich zu beeinflussen. Um die Entwicklungen im Bereich KI und ihre Leistungsfähigkeit weiterhin kritisch zu beobachten, sind solche Benchmarks essenziell.