# why
# what
- Humanity’s Last Exam (HLE) “人类最后的考试”是由安全AI组织推出的极高难度基准,旨在成为“如果AI通过了这套考题,人类可能无题可出”的最终挑战。
- HLE包含约3000道横跨数学、人文和自然科学等众多领域的开放性高难度问题。**这些问题由专家设计,要求模型具备跨学科的深厚知识和复杂推理能力。**(*跨学科能力不仅仅是人类需要的了*)
- **评测方法**:通常是让模型在无外部工具帮助下回答这些开放性问题,以计算其准确率。HLE于2023年底发布,初版数据显示,人类专家正确率约92%,而GPT-4借助插件仅约15%。因此,HLE被用来检验前沿模型在专家级知识任务上的极限能力。[[Deep Research]]的表现为 26.6%,高于[[o3-mini]]一倍。
# how
# how good
# Ref.
- [OpenAI新模型评测基准深入分析](https://readwise.io/reader/shared/01jkh88b06m68c2c621aktn7m5)