Deep Research自2025年2月初由OpenAI推出后迅速引发全球关注,其通过端到端强化学习技术实现多步骤研究任务自动化,能在数十分钟内生成分析师水平报告,效率远超人类(耗时从30分钟到30天不等),被学者评价为“堪比优秀博士生助理”。该功能不仅吸引Pro用户付费订阅,还促使谷歌、xAI等企业加速推出竞品(如Gemini和Grok 3),形成技术竞争热潮
。学术界对其颠覆性潜力反应强烈,宾夕法尼亚大学、多伦多大学等学者称赞其在论文撰写、数据整合等场景的实用性,甚至认为可支持B级期刊快速发文。开发者社区也积极复现该技术,涌现出基于DeepSeek R1等开源模型的本地部署方案。实测案例显示,其在爬取论文作者信息、医学研究等复杂任务中表现优于传统工具,同时引发教育、科研领域对AI替代人类研究能力的广泛讨论。
迄今为止,github上,有20+个复现deep-research的开源项目。
名称 | 项目名 | star | 链接 | 备注 |
theworldofagents | Agentic-Reasoning | 158 | https://github.com/theworldofagents/Agentic-Reasoning | |
HKUDS | Auto-Deep-Research | 299 | https://github.com/HKUDS/Auto-Deep-Research | 香港大学开源的。虽然star少,但是效果很不错。对应的评测比较完整,有论文 |
Cognio-so | deep-research | 0 | https://github.com/Cognio-so/deep-research | |
dzhng | deep-research | 12.8k | https://github.com/dzhng/deep-research | 作为复现deep-research的开源项目,star最多,但是实际上逻辑非常简单! |
mingdaoai | deep-research | 0 | https://github.com/mingdaoai/deep-research | |
ssdeanx (和 dzhng是一个) | deep-research-mcp-server | - | https://github.com/ssdeanx/deep-research-mcp-server | |
epuerta9 | deep-research-py | - | https://github.com/epuerta9/deep-research-py | |
AnotiaWang | deep-research-web-ui | 986 | https://github.com/AnotiaWang/deep-research-web-ui | web前端ui界面搭建 |
zilliztech | deep-searcher | 902 | https://github.com/zilliztech/deep-searcher | |
omni-georgio | deep_research- | 125 | https://github.com/omni-georgio/deep_research- | 很简单,就一个文件 |
HarshJ23 | Deeper-Seeker | https://github.com/HarshJ23/Deeper-Seeker | 很简单,就一个文件 | |
assafelovic | gpt-researcher | 19k | https://github.com/assafelovic/gpt-researcher | 作为多智能体框架,开源时间较早 |
jina-ai | node-DeepResearch | 2.5k | https://github.com/jina-ai/node-DeepResearch | |
langchain-ai | ollama-deep-researcher | 2.4k | https://github.com/langchain-ai/ollama-deep-researcher | |
btahir (nickscamara)有改造 | open-deep-research | - | https://github.com/btahir/open-deep-research | 重复 |
fdarkaou (AnotiaWang) | open-deep-research | - | https://github.com/btahir/open-deep-research | 重复 |
nickscamara | open-deep-research | 4.4k | https://github.com/nickscamara/open-deep-research | |
langchain-ai | open_deep_research | 1.1k | https://github.com/langchain-ai/open_deep_research | |
mshumer | OpenDeepResearcher | 2.2k | https://github.com/mshumer/OpenDeepResearcher | |
HF huggingface | smolagents | https://github.com/huggingface/smolagents | ||
grapeot | deep_research_agent | 62 | https://github.com/grapeot/deep_research_agent | |
LearningCircuit | local-deep-research | 85 | https://github.com/LearningCircuit/local-deep-research | |
kaymen99 | local-rag-researcher-deepseek | 34 | https://github.com/kaymen99/local-rag-researcher-deepseek |
如何评测其效果,就要用到寻找专业、公认的测试数据集。本文结合最近看的,分享三个反响大的数据集。以及对应的资料。
一、“人类的最后考试”(Humanity's Last Exam)
数据集内容:
该测试包含 2,700 道题,涉及数十个学科,包括数学、人文科学和自然科学。HLE 由全球学科专家开发,包含适合自动评分的多项选择题和简答题。
数据特点:
HLE 包含两种问题格式:精确匹配问题(模型需输出一个精确的字符串作为答案)和 多项选择题(模型需从五个或更多选项中选择一个正确答案)。HLE 是一个多模态基准,其中约 13% 的问题 需要理解文本和图像。24% 的问题 是多项选择题,其余为精确匹配问题。
每道题目的提交需包含多个必需组件:问题文本、答案说明(包括精确匹配答案,或多项选择答案及正确答案标注)、详细的解题逻辑、所属学科,以及贡献者的姓名和机构信息,以确保问答的可追溯性和准确性。
该数据集是困难级别的测试数据集。各类模型在此数据集下测试的准确率效果低于10%
测试效果:
当前openai 的DeepResearch在此测试中的准确率达到26.6%,显著超过DeepSeek-R1的9.4%。这一成绩凸显其通过端到端强化学习优化的多步骤推理能力,尤其在跨学科知识关联和信息验证方面表现突出。
数据集相关论文:https://arxiv.org/abs/2501.14249
github地址:https://github.com/centerforaisafety/hle
二、GAIA基准测试
数据集内容:
GAIA(A Benchmark for General AI Assistants)是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。
问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。
问题类型文本为主:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。
任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。
答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。
难度分级:
Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。
Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。
Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)
论文地址:https://arxiv.org/pdf/2311.12983
huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard
三、GPQA数据集
领域构成:448道高质量多选题,涵盖生物学(33%)、物理学(35%)和化学(32%)
设计目标:构建一个连搜索引擎都难以解决的"抗谷歌"级难题集,用于测试人类专家、非专家和AI系统的极限
专家表现:相关领域博士/在读博士正确率65%(若排除事后发现的明显错误可达74%)
非专家表现:高技能非领域专家(给予30分钟+网络权限)仅34%正确率
AI表现:基于GPT-4的最强基线模型正确率39%
论文地址:https://arxiv.org/pdf/2311.12022
huggingface数据集地址:https://huggingface.co/datasets/Idavidrein/gpqa