Последният тест на човечеството: AI няма шанс в теста!
Рурският университет в Бохум участва в „Последния изпит на човечеството“, нов показател за оценка на способностите на ИИ.

Последният тест на човечеството: AI няма шанс в теста!
На 1 април 2025 г. беше представен наборът от сравнителни данни „Последният изпит на човечеството“, специално предназначен да тества възможностите на генеративния изкуствен интелект (AI). Този набор от данни съдържа 550 въпроса, избрани от повече от 70 000 изпращания. Математиците от Рурския университет в Бохум, проф. д-р Кристиан Стамп и проф. д-р Александър Иванов, активно допринесоха с три въпроса към набора от тестови данни. Около 1000 експерти от 50 държави участваха в съставянето на въпросите. За да се гарантира целостта на теста, бяха избрани само непубликувани въпроси, така че AI моделите да не могат просто да търсят отговорите в интернет.
Особено забележителен аспект на набора от данни е, че 40 процента от въпросите идват от областта на математиката. Тези въпроси имат потенциал да бъдат използвани като основа за докторски дисертации. Освен това се оказва, че колкото по-абстрактни са въпросите, толкова по-добре могат да бъдат осветени веригите на разсъждение на ИИ. Въпреки тази сложна структура, тестваните AI успяха да отговорят смислено само на девет процента от въпросите. Моделите постоянно дават неизползваеми отговори на останалите въпроси. Това разкрива предизвикателствата при тестването на интелигентността и проблемно-ориентираните способности на изкуствения интелект.
Значение на бенчмарковете за разработките на ИИ
Въвеждането на „Последния изпит на човечеството“ (HLE) бележи важна стъпка в оценката на големи езикови модели. Предишните бенчмаркове често са били недостатъчни за измерване на значителен напредък в моделите, тъй като настоящите бенчмаркове като MMLU се изпълняват от моделите с над 90 процента точност. Това високо ниво на точност обаче ограничава възможността за реалистична оценка на действителните възможности на моделите. Следователно наборът от данни „HLE“ има за цел да бъде последната затворена академична оценка, обхващаща широк кръг от теми.
„HLE“ включва общо 3000 въпроса в различни дисциплини, включително математика, хуманитарни науки и природни науки. Наборът от данни съдържа както въпроси с избираем отговор, така и въпроси с кратък отговор, подходящи за автоматично оценяване. Всеки въпрос има ясно, проверимо решение и на него не може да се отговори бързо чрез просто търсене в интернет. Настоящите езикови модели показват лоша точност и калибриране, когато се тестват с „HLE“, което показва значителна разлика между възможностите на моделите и работата на човешкия експерт по академични въпроси от затворен тип. Това подчертава предизвикателствата, пред които е изправено при оценяването на текущото развитие на ИИ, и подчертава спешната необходимост от непрекъснат преглед на напредъка в тази област.
За тези, които се интересуват, „HLE“ е публично достъпен и потребителите се насърчават да цитират работата, когато наборът от данни се използва в изследване. Тази инициатива може да помогне значително да повлияе на бъдещите стандарти и очаквания за базирани на AI инструменти за образование и оценка. За да продължим да наблюдаваме критично развитието в областта на изкуствения интелект и неговото представяне, такива показатели са от съществено значение.