人类最终考验:AI在考验中毫无胜算!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

波鸿鲁尔大学正在参加“人类最后的考试”,这是评估人工智能能力的新基准。

Die Ruhr-Universität Bochum beteiligt sich an „Humanity’s Last Exam“, einem neuen Benchmark zur Bewertung von KI-Fähigkeiten.
波鸿鲁尔大学正在参加“人类最后的考试”,这是评估人工智能能力的新基准。

人类最终考验:AI在考验中毫无胜算!

2025年4月1日,“人类最后的考试”基准数据集发布,专门用于测试生成人工智能(AI)的能力。该数据集包含从 70,000 多个提交内容中选出的 550 个问题。来自波鸿鲁尔大学的数学家 Christian Stump 教授和 Alexander Ivanov 教授积极向测试数据集贡献了三个问题。来自 50 个国家的约 1,000 名专家参与了问题的编制。为了保证测试的完整性,只选择未公开的问题,这样人工智能模型就不能简单地在互联网上搜索答案。

该数据集特别值得注意的一点是,40% 的问题来自数学领域。这些问题有可能用作博士论文的基础。此外,事实证明,问题越抽象,人工智能的推理链就越能被阐明。尽管结构如此复杂,但接受测试的人工智能只能有意义地回答百分之九的问题。这些模型始终为其余问题提供了无用的答案。这揭示了测试人工智能的智能和面向问题的能力所面临的挑战。

人工智能发展基准的重要性

“人类最后的考试”(HLE)的推出标志着大型语言模型评估迈出了重要一步。以前的基准通常不足以衡量模型的重大进展,因为模型满足当前基准(例如 MMLU)的准确率超过 90%。然而,如此高的准确度限制了真实评估模型实际能力的能力。因此,“HLE”数据集旨在成为涵盖广泛学科的最后一个封闭式学术评估。

《HLE》共包含数学、人文、科学等各个学科的3000道题。该数据集包含适合自动评分的多项选择题和简答题。每个问题都有一个清晰的、可验证的解决方案,并且不能通过简单的互联网搜索来快速回答。当前的语言模型在使用“HLE”进行测试时显示出较差的准确性和校准性,这表明模型的能力与人类专家在封闭式学术问题上的表现之间存在显着差距。这凸显了对当前人工智能发展进行评级所面临的挑战,并强调了不断审查该领域进展的迫切需要。

对于感兴趣的人来说,“HLE”是公开可用的,并且鼓励用户在数据集用于研究时引用该工作。这一举措可能有助于显着影响人工智能驱动的教育和评估工具的未来标准和期望。为了继续严格监控人工智能领域的发展及其性能,此类基准至关重要。