# why - why 解决什么问题 - 不仅理解知识本身,还需要知道知识的 **「来龙去脉」**,否则写不出 why。 # what - GAIA (General AI Assistant Benchmark),GAIA是**Meta**等提出的通用AI助手能力基准,共466道真人设计的问题​。与传统NLP基准不同,GAIA的问题贴近**现实场景**,往往需要模型具有推理、多模态处理、网络浏览和工具使用等一系列能力​。题目可能附带网页、图像、表格等文件,需要模型检索信息并给出解决方案​。GAIA采用过程评分,不仅考查答案正确性,还评估模型推理过程的合理性,如同评分学生解题步骤​。该基准体现“真实世界任务”导向,强调综合运用工具和知识解决问题。GAIA于2023年底提出,旨在推动AI从封闭任务评测转向复杂开放任务评测​。**它常用于评估具备浏览器或插件等工具的代理型系统,例如OpenAI的“[[Deep Research]]”代理就在此基准上取得了最新的SOTA成绩​。** # how - 怎么做到?为什么能做到?步骤流程? # how good - how good 解决了问题 # Ref. - [OpenAI新模型评测基准深入分析](https://readwise.io/reader/shared/01jkh88b06m68c2c621aktn7m5)