HLE - 朱婉妤的知识库

# why # what - Humanity’s Last Exam (HLE) “人类最后的考试”是由安全AI组织推出的极高难度基准，旨在成为“如果AI通过了这套考题，人类可能无题可出”的最终挑战。 - HLE包含约3000道横跨数学、人文和自然科学等众多领域的开放性高难度问题。**这些问题由专家设计，要求模型具备跨学科的深厚知识和复杂推理能力。**（*跨学科能力不仅仅是人类需要的了*） - **评测方法**：通常是让模型在无外部工具帮助下回答这些开放性问题，以计算其准确率。HLE于2023年底发布，初版数据显示，人类专家正确率约92%，而GPT-4借助插件仅约15%。因此，HLE被用来检验前沿模型在专家级知识任务上的极限能力。[[Deep Research]]的表现为 26.6%，高于[[o3-mini]]一倍。 # how # how good # Ref. - [OpenAI新模型评测基准深入分析](https://readwise.io/reader/shared/01jkh88b06m68c2c621aktn7m5)