deep-research 专用评测数据集

Deep Research自2025年2月初由OpenAI推出后迅速引发全球关注,其通过端到端强化学习技术实现多步骤研究任务自动化,能在数十分钟内生成分析师水平报告,效率远超人类(耗时从30分钟到30天不等),被学者评价为“堪比优秀博士生助理”。该功能不仅吸引Pro用户付费订阅,还促使谷歌、xAI等企业加速推出竞品(如Gemini和Grok 3),形成技术竞争热潮

。学术界对其颠覆性潜力反应强烈,宾夕法尼亚大学、多伦多大学等学者称赞其在论文撰写、数据整合等场景的实用性,甚至认为可支持B级期刊快速发文。开发者社区也积极复现该技术,涌现出基于DeepSeek R1等开源模型的本地部署方案。实测案例显示,其在爬取论文作者信息、医学研究等复杂任务中表现优于传统工具,同时引发教育、科研领域对AI替代人类研究能力的广泛讨论。 

迄今为止,github上,有20+个复现deep-research的开源项目。

名称项目名star链接备注
theworldofagentsAgentic-Reasoning158https://github.com/theworldofagents/Agentic-Reasoning
HKUDSAuto-Deep-Research299https://github.com/HKUDS/Auto-Deep-Research香港大学开源的。虽然star少,但是效果很不错。对应的评测比较完整,有论文
Cognio-sodeep-research0https://github.com/Cognio-so/deep-research
dzhngdeep-research12.8khttps://github.com/dzhng/deep-research作为复现deep-research的开源项目,star最多,但是实际上逻辑非常简单!
mingdaoaideep-research0https://github.com/mingdaoai/deep-research
ssdeanx (和 dzhng是一个)deep-research-mcp-server-https://github.com/ssdeanx/deep-research-mcp-server
epuerta9deep-research-py-https://github.com/epuerta9/deep-research-py
AnotiaWangdeep-research-web-ui986https://github.com/AnotiaWang/deep-research-web-uiweb前端ui界面搭建
zilliztechdeep-searcher902https://github.com/zilliztech/deep-searcher
omni-georgiodeep_research-125https://github.com/omni-georgio/deep_research-很简单,就一个文件
HarshJ23Deeper-Seekerhttps://github.com/HarshJ23/Deeper-Seeker很简单,就一个文件
assafelovicgpt-researcher19khttps://github.com/assafelovic/gpt-researcher作为多智能体框架,开源时间较早
jina-ainode-DeepResearch2.5khttps://github.com/jina-ai/node-DeepResearch
langchain-aiollama-deep-researcher2.4khttps://github.com/langchain-ai/ollama-deep-researcher
btahir (nickscamara)有改造open-deep-research-https://github.com/btahir/open-deep-research重复
fdarkaou (AnotiaWang)open-deep-research-https://github.com/btahir/open-deep-research重复
nickscamaraopen-deep-research4.4khttps://github.com/nickscamara/open-deep-research
langchain-aiopen_deep_research1.1khttps://github.com/langchain-ai/open_deep_research
mshumerOpenDeepResearcher2.2khttps://github.com/mshumer/OpenDeepResearcher
HF
huggingface
smolagentshttps://github.com/huggingface/smolagents
grapeotdeep_research_agent62https://github.com/grapeot/deep_research_agent
LearningCircuitlocal-deep-research85https://github.com/LearningCircuit/local-deep-research
kaymen99local-rag-researcher-deepseek34https://github.com/kaymen99/local-rag-researcher-deepseek

 如何评测其效果,就要用到寻找专业、公认的测试数据集。本文结合最近看的,分享三个反响大的数据集。以及对应的资料。

一、“人类的最后考试”(Humanity's Last Exam)

数据集内容:

该测试包含 2,700 道题,涉及数十个学科,包括数学、人文科学和自然科学。HLE 由全球学科专家开发,包含适合自动评分的多项选择题和简答题。

数据特点

HLE 包含两种问题格式:精确匹配问题(模型需输出一个精确的字符串作为答案)和 多项选择题(模型需从五个或更多选项中选择一个正确答案)。HLE 是一个多模态基准,其中约 13% 的问题 需要理解文本和图像24% 的问题 是多项选择题,其余为精确匹配问题。

每道题目的提交需包含多个必需组件:问题文本、答案说明(包括精确匹配答案,或多项选择答案及正确答案标注)、详细的解题逻辑所属学科,以及贡献者的姓名和机构信息,以确保问答的可追溯性和准确性

该数据集是困难级别的测试数据集。各类模型在此数据集下测试的准确率效果低于10%

测试效果:

当前openai 的DeepResearch在此测试中的准确率达到26.6%,显著超过DeepSeek-R1的9.4%。这一成绩凸显其通过端到端强化学习优化的多步骤推理能力,尤其在跨学科知识关联和信息验证方面表现突出。

数据集相关论文:https://arxiv.org/abs/2501.14249

github地址:https://github.com/centerforaisafety/hle

二、GAIA基准测试

数据集内容:

GAIA(A Benchmark for General AI Assistants)是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。

问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。

问题类型文本为主:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。

任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。

答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。

难度分级

Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。

Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。

Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)

论文地址:https://arxiv.org/pdf/2311.12983

huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard

三、GPQA数据集

领域构成:448道高质量多选题,涵盖生物学(33%)、物理学(35%)和化学(32%)

设计目标:构建一个连搜索引擎都难以解决的"抗谷歌"级难题集,用于测试人类专家、非专家和AI系统的极限

专家表现:相关领域博士/在读博士正确率65%(若排除事后发现的明显错误可达74%)

非专家表现:高技能非领域专家(给予30分钟+网络权限)仅34%正确率

AI表现:基于GPT-4的最强基线模型正确率39%

论文地址:https://arxiv.org/pdf/2311.12022

huggingface数据集地址:https://huggingface.co/datasets/Idavidrein/gpqa

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977543.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WordPress平台如何接入Deepseek,有效提升网站流量

深夜改代码到崩溃?《2024全球CMS生态报告》揭露:78%的WordPress站长因API对接复杂,错失AI内容红利。本文实测「零代码接入Deepseek」的保姆级方案,配合147SEO的智能发布系统,让你用3个步骤实现日均50篇EEAT合规内容自动…

QT零基础学习之路(六)--如何添加资源文件

源码地址(优先更新):点击此处

【愚公系列】《Python网络爬虫从入门到精通》033-DataFrame的数据排序

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。近期荣誉2022年度…

Python入门12:面向对象的三大特征与高级特性详解

面向对象编程(OOP)是Python编程中非常重要的一部分,它通过封装、继承和多态这三大特征,帮助我们更好地组织和管理代码。除此之外,Python还提供了一些其他特性,如类属性、类方法和静态方法,进一步…

20分钟 Bash 上手指南

文章目录 bash 概念与学习目的第一个 bash 脚本bash 语法变量的使用位置参数管道符号(过滤条件)重定向符号条件测试命令条件语句case 条件分支Arrayfor 循环函数exit 关键字 bash 脚本记录历史命令查询文件分发内容 bash 概念与学习目的 bash&#xff0…

观成科技:海莲花“PerfSpyRAT”木马加密通信分析

1.概述 在2024年9月中旬至10月,东南亚APT组织“海莲花”通过GitHub发布开源安全工具项目,针对网络安全人员发起了定向攻击。通过对相关攻击活动进行分析,可以将其与一些海莲花的样本关联起来。这些样本的通信数据结构与海莲花此前使用的攻击…

Orange 开源项目 - 集成百度智能云-千帆大模型

1 集成百度智能云-千帆大模型 百度智能云-千帆ModelBuilder百度智能云千帆大模型服务与开发平台ModelBuilder(以下简称千帆ModelBuilder)是面向企业开发者的一站式大模型开发及服务运行平台。千帆ModelBuilder不仅提供了包括文心一言底层模型和第三方开源…

猿大师播放器:网页内嵌VLC/FFPlayer在Web端直接播放RTSP/RTMP/H.265视频流

据统计,2024年中国视频转码服务器市场规模已突破百亿,但企业IT投入中约40%用于转码服务器的采购与维护,消防、安防等场景对实时性的严苛要求(如火灾预警需秒级响应),使得传统转码方案因延迟过高而屡屡失效&…

uni-app 开发 App 、 H5 横屏签名(基于lime-signature)

所用插件&#xff1a;lime-signature 使用到 CSS 特性 绝对定位transform 旋转transform-origin transform 原点 复习一下定位元素&#xff08;相对定位、绝对定位、粘性定位&#xff09; 代码# <template><view class"signature-page"><view clas…

搜广推校招面经三十一

vivo策略算法 一、机器学习中 L1 和 L2 正则化的原理 见【搜广推校招面经二十五】 L1 正则化将某些特征权重置0实现模型简化&#xff0c;而 L2 正则化主要通过平滑权重来实现模型简化。 1.1. 正则化的原理 正则化的核心思想是在损失函数中加入一个惩罚项&#xff08;Regula…

DeepSeek+Kimi生成高质量PPT

DeepSeek与Kimi生成PPT全流程解析 一、工具分工原理 DeepSeek核心作用&#xff1a;生成结构化PPT大纲&#xff08;擅长逻辑构建与内容优化&#xff09;Kimi核心作用&#xff1a;将文本转换为视觉化PPT&#xff08;提供模板库与排版引擎&#xff09; 二、操作步骤详解 1. 通…

vmware虚拟机安装使用教程【视频】

vmware虚拟机安装使用教程【视频】 VMware是一款强大的桌面级虚拟化软件&#xff0c;它允许用户在单个计算机上同时运行多个操作系统&#xff0c;每个操作系统都被称为一个虚拟机&#xff08;VM&#xff09;。这种技术不仅方便了软件测试、系统开发&#xff0c;还便于资源管理&…

【Linux Oracle】time命令+oracle exp压缩

Linux && Oracle相关文档&#xff0c;希望互相学习&#xff0c;共同进步 风123456789&#xff5e;-CSDN博客 1.说明 Linux中的time命令&#xff1a;主要用于测量命令的执行时间&#xff0c;并显示该命令在执行过程中所使用的系统资源情况&#xff0c;如CPU时间、内存和…

STM32CUBEIDE FreeRTOS操作教程(十三):task api 任务访问函数

STM32CUBEIDE FreeRTOS操作教程&#xff08;十三&#xff09;&#xff1a;task api 任务访问函数 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件&#xff0c;不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开发板…

网络安全扫描--基础篇

前言 1、了解互联网安全领域中日趋重要的扫描技术 2、了解在不同网络场景下扫描技术手段 3、熟悉linux下系统内核防护策略并能大件一个有效的系统防护体系 4、增强工作安全意识&#xff0c;并能有效的实践于工作场景中 目录 1、熟悉主机扫描工具&#xff08;fping&#xff0c;…

品融电商解读:小红书KOC打法如何重构品牌增长新路径

品融电商解读&#xff1a;小红书KOC打法如何重构品牌增长新路径 在内容生态高度饱和的今天&#xff0c;品牌若想在小红书等平台实现破局&#xff0c;仅依赖“产品为王”的单一逻辑已远远不够。作为国内头部的小红书代运营公司&#xff0c;品融电商观察到&#xff0c;平台的竞…

【原创工具】文件清单生成器 By怜渠客

【原创工具】文件清单生成器 By怜渠客 刚在论坛看到了一个文件列表生成器 文件列表生成器 - 吾爱破解 - 52pojie.cn &#xff0c;和我去年写的一个软件很像&#xff0c;当时我也是有需求&#xff0c;要把一个文件夹里及其子文件夹里所有的文件列出来&#xff0c;就临时弄了个小…

深度学习-6.用于计算机视觉的深度学习

Deep Learning - Lecture 6 Deep Learning for Computer Vision 简介深度学习在计算机视觉领域的发展时间线 语义分割语义分割系统的类型上采样层语义分割的 SegNet 架构软件中的SegNet 架构数据标注 目标检测与识别目标检测与识别问题两阶段和一阶段目标检测与识别两阶段检测器…

力扣-动态规划-746 使用最小花费爬楼梯

思路 dp数组定义&#xff1a;爬到第i层楼梯最小消耗dp[i]的费用递推公式&#xff1a;dp数组初始化&#xff1a;dp[0] 0, dp[1] 0;遍历顺序&#xff1a;顺序遍历时间复杂度&#xff1a; 代码 class Solution { public:int minCostClimbingStairs(vector<int>&am…

智慧后勤的消防管理:豪越科技为安全护航

智慧后勤消防管理难题大揭秘&#xff01; 在智慧后勤发展得如火如荼的当下&#xff0c;消防管理却暗藏诸多难题。传统模式下&#xff0c;消防设施分布得那叫一个散&#xff0c;就像一盘散沙&#xff0c;管理起来超费劲。人工巡检不仅效率低&#xff0c;还容易遗漏&#xff0c;不…