Ostateczny test człowieczeństwa: sztuczna inteligencja nie ma w tym teście szans!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Uniwersytet Ruhr w Bochum uczestniczy w „Ostatnim egzaminie ludzkości”, nowym punkcie odniesienia w ocenie możliwości sztucznej inteligencji.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
Uniwersytet Ruhr w Bochum uczestniczy w „Ostatnim egzaminie ludzkości”, nowym punkcie odniesienia w ocenie możliwości sztucznej inteligencji.

Ostateczny test człowieczeństwa: sztuczna inteligencja nie ma w tym teście szans!

1 kwietnia 2025 r. zaprezentowano zestaw danych porównawczych „Humanity’s Last Exam”, zaprojektowany specjalnie w celu przetestowania możliwości generatywnej sztucznej inteligencji (AI). Ten zbiór danych zawiera 550 pytań wybranych spośród ponad 70 000 zgłoszeń. Matematycy z Uniwersytetu Ruhr w Bochum, prof. dr Christian Stump i prof. dr Alexander Ivanov aktywnie wnieśli trzy pytania do zestawu danych testowych. W opracowaniu pytań wzięło udział około 1000 ekspertów z 50 krajów. Aby zapewnić rzetelność testu, wybrano wyłącznie pytania niepublikowane, aby modele AI nie mogły po prostu wyszukiwać odpowiedzi w Internecie.

Szczególnie godnym uwagi aspektem zbioru danych jest to, że 40 procent pytań pochodzi z dziedziny matematyki. Pytania te mają potencjał, aby zostać wykorzystane jako podstawa prac doktorskich. Ponadto okazuje się, że im bardziej abstrakcyjne są pytania, tym lepiej można naświetlić łańcuchy rozumowania sztucznej inteligencji. Pomimo tej wyrafinowanej struktury przetestowane sztuczna inteligencja były w stanie w znaczący sposób odpowiedzieć jedynie na dziewięć procent pytań. Modele konsekwentnie dostarczały bezużytecznych odpowiedzi na pozostałe pytania. Ujawnia to wyzwania związane z testowaniem inteligencji i zdolności sztucznej inteligencji zorientowanej na problemy.

Znaczenie punktów odniesienia dla rozwoju sztucznej inteligencji

Wprowadzenie „Ostatniego egzaminu ludzkości” (HLE) stanowi ważny krok w ocenie dużych modeli językowych. Poprzednie benchmarki często były niewystarczające do zmierzenia znacznego postępu w modelach, ponieważ obecne benchmarki, takie jak MMLU, są spełniane przez modele z ponad 90-procentową dokładnością. Jednak tak wysoki poziom dokładności ogranicza możliwość realistycznej oceny rzeczywistych możliwości modeli. Zbiór danych „HLE” ma zatem być ostatnią zamkniętą oceną akademicką obejmującą szeroki zakres przedmiotów.

„HLE” zawiera w sumie 3000 pytań z różnych dyscyplin, m.in. matematyki, nauk humanistycznych i nauk ścisłych. Zbiór danych zawiera zarówno pytania wielokrotnego wyboru, jak i pytania z krótką odpowiedzią, które można oceniać automatycznie. Każde pytanie ma jasne, weryfikowalne rozwiązanie i nie można na nie szybko odpowiedzieć za pomocą prostego wyszukiwania w Internecie. Obecne modele językowe wykazują słabą dokładność i kalibrację w testach z użyciem „HLE”, co wskazuje na znaczną lukę między możliwościami modeli a wynikami ekspertów w zakresie zamkniętych pytań akademickich. Uwydatnia to wyzwania stojące przy ocenie obecnego rozwoju sztucznej inteligencji i pilną potrzebę ciągłego przeglądu postępów w tej dziedzinie.

Dla zainteresowanych „HLE” jest publicznie dostępny i zachęca się użytkowników do cytowania pracy, gdy zbiór danych jest wykorzystywany w badaniach. Inicjatywa ta może znacząco wpłynąć na przyszłe standardy i oczekiwania dotyczące narzędzi edukacyjnych i oceniających opartych na sztucznej inteligencji. Aby w dalszym ciągu krytycznie monitorować rozwój sytuacji w dziedzinie sztucznej inteligencji i jej działania, takie punkty odniesienia są niezbędne.