Последният тест на човечеството: AI няма шанс в теста!

Franziska Richter

Profil E-Mail

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 01.04.2025

Sprache:

Рурският университет в Бохум участва в „Последния изпит на човечеството“, нов показател за оценка на способностите на ИИ.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten. — Рурският университет в Бохум участва в „Последния изпит на човечеството“, нов показател за оценка на способностите на ИИ.

На 1 април 2025 г. беше представен наборът от сравнителни данни „Последният изпит на човечеството“, специално предназначен да тества възможностите на генеративния изкуствен интелект (AI). Този набор от данни съдържа 550 въпроса, избрани от повече от 70 000 изпращания. Математиците от Рурския университет в Бохум, проф. д-р Кристиан Стамп и проф. д-р Александър Иванов, активно допринесоха с три въпроса към набора от тестови данни. Около 1000 експерти от 50 държави участваха в съставянето на въпросите. За да се гарантира целостта на теста, бяха избрани само непубликувани въпроси, така че AI моделите да не могат просто да търсят отговорите в интернет.

Особено забележителен аспект на набора от данни е, че 40 процента от въпросите идват от областта на математиката. Тези въпроси имат потенциал да бъдат използвани като основа за докторски дисертации. Освен това се оказва, че колкото по-абстрактни са въпросите, толкова по-добре могат да бъдат осветени веригите на разсъждение на ИИ. Въпреки тази сложна структура, тестваните AI успяха да отговорят смислено само на девет процента от въпросите. Моделите постоянно дават неизползваеми отговори на останалите въпроси. Това разкрива предизвикателствата при тестването на интелигентността и проблемно-ориентираните способности на изкуствения интелект.

Значение на бенчмарковете за разработките на ИИ

Въвеждането на „Последния изпит на човечеството“ (HLE) бележи важна стъпка в оценката на големи езикови модели. Предишните бенчмаркове често са били недостатъчни за измерване на значителен напредък в моделите, тъй като настоящите бенчмаркове като MMLU се изпълняват от моделите с над 90 процента точност. Това високо ниво на точност обаче ограничава възможността за реалистична оценка на действителните възможности на моделите. Следователно наборът от данни „HLE“ има за цел да бъде последната затворена академична оценка, обхващаща широк кръг от теми.

„HLE“ включва общо 3000 въпроса в различни дисциплини, включително математика, хуманитарни науки и природни науки. Наборът от данни съдържа както въпроси с избираем отговор, така и въпроси с кратък отговор, подходящи за автоматично оценяване. Всеки въпрос има ясно, проверимо решение и на него не може да се отговори бързо чрез просто търсене в интернет. Настоящите езикови модели показват лоша точност и калибриране, когато се тестват с „HLE“, което показва значителна разлика между възможностите на моделите и работата на човешкия експерт по академични въпроси от затворен тип. Това подчертава предизвикателствата, пред които е изправено при оценяването на текущото развитие на ИИ, и подчертава спешната необходимост от непрекъснат преглед на напредъка в тази област.

За тези, които се интересуват, „HLE“ е публично достъпен и потребителите се насърчават да цитират работата, когато наборът от данни се използва в изследване. Тази инициатива може да помогне значително да повлияе на бъдещите стандарти и очаквания за базирани на AI инструменти за образование и оценка. За да продължим да наблюдаваме критично развитието в областта на изкуствения интелект и неговото представяне, такива показатели са от съществено значение.

Quellen:

Последният тест на човечеството: AI няма шанс в теста!

Значение на бенчмарковете за разработките на ИИ

Weitersagen oder Speichern

Das Neueste

Start-up Shortcuts: Tipps für Gründer am 23. Oktober in Lübeck!

KI-Reallabor Agrar: Revolution für die Landwirtschaft in Osnabrück!

Großbrand in Bielefeld: Feuerwehr im Alarmmodus – Anwohner evakuiert!

Samstags-Uni in Freiburg: Entdecken Sie die Kulturgeschichte der Stadt!

Hilfe für Eltern: Tipps zu Mutismus und Angststörungen bei Kindern!