O teste final da humanidade: a IA não tem chance no teste!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

A Ruhr University Bochum está participando do “Último Exame da Humanidade”, uma nova referência para avaliar as capacidades de IA.

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
A Ruhr University Bochum está participando do “Último Exame da Humanidade”, uma nova referência para avaliar as capacidades de IA.

O teste final da humanidade: a IA não tem chance no teste!

Em 1º de abril de 2025, foi apresentado o conjunto de dados de referência “Último Exame da Humanidade”, projetado especificamente para testar as capacidades da Inteligência Artificial Gerativa (IA). Este conjunto de dados contém 550 perguntas selecionadas de mais de 70.000 envios. Os matemáticos da Ruhr University Bochum, Prof. Christian Stump e Prof. Alexander Ivanov, contribuíram ativamente com três questões para o conjunto de dados de teste. Cerca de 1.000 especialistas de 50 países contribuíram para a compilação das perguntas. Para garantir a integridade do teste, foram escolhidas apenas questões inéditas para que os modelos de IA não possam simplesmente buscar as respostas na Internet.

Um aspecto particularmente notável do conjunto de dados é que 40% das questões vêm da área da matemática. Essas questões têm potencial para serem utilizadas como base para teses de doutorado. Além disso, quanto mais abstratas as questões, melhor as cadeias de raciocínio das IAs podem ser iluminadas. Apesar desta estrutura sofisticada, as IAs testadas só foram capazes de responder de forma significativa a nove por cento das perguntas. Os modelos forneceram consistentemente respostas inutilizáveis ​​às questões restantes. Isto revela os desafios em testar a inteligência e as capacidades orientadas para os problemas das inteligências artificiais.

Importância dos benchmarks para desenvolvimentos de IA

A introdução do “Último Exame da Humanidade” (HLE) marca um passo importante na avaliação de grandes modelos de linguagem. Os benchmarks anteriores têm sido muitas vezes insuficientes para medir o progresso significativo nos modelos, uma vez que os benchmarks actuais, como o MMLU, são cumpridos pelos modelos com mais de 90 por cento de precisão. No entanto, este elevado nível de precisão limita a capacidade de avaliar de forma realista as capacidades reais dos modelos. O conjunto de dados “HLE” pretende, portanto, ser a última avaliação académica fechada que cobre uma vasta gama de assuntos.

“HLE” inclui um total de 3.000 questões em diversas disciplinas, incluindo matemática, humanidades e ciências. O conjunto de dados contém questões de múltipla escolha e de resposta curta adequadas para avaliação automática. Cada pergunta tem uma solução clara e verificável e não pode ser respondida rapidamente por uma simples pesquisa na Internet. Os modelos de linguagem atuais mostram baixa precisão e calibração quando testados com “HLE”, indicando uma lacuna significativa entre as capacidades dos modelos e o desempenho humano especializado em questões acadêmicas fechadas. Isto destaca os desafios enfrentados na classificação do desenvolvimento atual da IA ​​e destaca a necessidade urgente de rever continuamente os progressos nesta área.

Para os interessados, “HLE” está disponível publicamente e os usuários são incentivados a citar o trabalho quando o conjunto de dados for usado em pesquisas. Esta iniciativa poderia ajudar a influenciar significativamente os padrões e expectativas futuras para ferramentas de educação e avaliação baseadas em IA. Para continuar a acompanhar de forma crítica a evolução no domínio da IA ​​e o seu desempenho, esses parâmetros de referência são essenciais.