GAIA - 朱婉妤的知识库

# why - why 解决什么问题 - 不仅理解知识本身，还需要知道知识的 **「来龙去脉」**，否则写不出 why。 # what - GAIA (General AI Assistant Benchmark)，GAIA是**Meta**等提出的通用AI助手能力基准，共466道真人设计的问题。与传统NLP基准不同，GAIA的问题贴近**现实场景**，往往需要模型具有推理、多模态处理、网络浏览和工具使用等一系列能力。题目可能附带网页、图像、表格等文件，需要模型检索信息并给出解决方案。GAIA采用过程评分，不仅考查答案正确性，还评估模型推理过程的合理性，如同评分学生解题步骤。该基准体现“真实世界任务”导向，强调综合运用工具和知识解决问题。GAIA于2023年底提出，旨在推动AI从封闭任务评测转向复杂开放任务评测。**它常用于评估具备浏览器或插件等工具的代理型系统，例如OpenAI的“[[Deep Research]]”代理就在此基准上取得了最新的SOTA成绩。** # how - 怎么做到？为什么能做到？步骤流程？ # how good - how good 解决了问题 # Ref. - [OpenAI新模型评测基准深入分析](https://readwise.io/reader/shared/01jkh88b06m68c2c621aktn7m5)