MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。

然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。

为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~

9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:3 个

  • 社区文章精选:4 篇

  • 热门百科词条:5 条

  • 9 月截稿顶会:3 个

访问官网:hyper.ai

公共数据集精选

1. MMLU-Pro 大规模多任务理解数据集

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。

直接使用:https://go.hyper.ai/PwJDW

2. DeepGlobe18 道路提取数据集

道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024 。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。

直接使用:https://go.hyper.ai/VIg0J

3. OpenForensics 人脸伪造检测数据集

该数据集由 115K 张野外图像和 334K 张人脸组成,所有图像都有丰富的面部注释,包括伪造类别、 边界框 、分割掩码、伪造边界和一般面部地标,包含各种背景和多个不同年龄、性别、姿势、位置和面部遮挡的人。

直接使用:https://go.hyper.ai/jTTRz

4. DeepfakeTIMIT 深度伪造检测数据集

该数据集包含了使用 开源 的基于 生成 对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法 创建。

直接使用:https://go.hyper.ai/me1TI

5. SESYD 合成文档数据库

该数据集包含了具有基准真实信息的文档图像, 由 11 个集合组成,包含 284k 图像、 190k 符号和 284k 字符,主要针对文档图像分析领域的 2 个主要研究问题:(1) 在线绘图图像(如平面图和电路图)中的象征识别和定位;(2) 地理地图中字符的分割和识别。

直接使用:https://go.hyper.ai/ZqRTQ

6. LAV-DF 多模态 DeepFake 音频视觉数据集

LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

直接使用:https://go.hyper.ai/ujock

7. Vibrent Clothes Rental Dataset 服装租赁数据集

该数据集包含 64k 笔交易、 2.2k 名匿名用户的租赁历史记录和 15.8k 套独特的服装,其中每件实物的属性和租赁历史都有细致的信息记录。所有服装都列为单件商品或其相应的商品组,指的是单件商品之间的共享设计,每件服装都附有一组描述其某些属性的 标签 。

直接使用:https://go.hyper.ai/PFlKA

8. FFIW10K 人脸伪造数据集

该数据包括从 Youtube 收集的 10k 个高质量伪造视频,平均每帧有三个人脸,每个视频都包含真实人脸和伪造人脸,更加接近现实复杂场景。操纵过程是全自动的,由领域对抗质量评估网络控制,使数据集具有高度可扩展性和低人力成本。

直接使用:https://go.hyper.ai/AHS7y

9. ForgeryNet 人脸伪造数据集

该数据集包含了 290 万张图像和 221,247 个视频,涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法。这个数据集为研究者提供了丰富的资源,以支持图像和视频层面的 4 种任务:图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

直接使用:https://go.hyper.ai/Yx0mj

10. EEG Eve State Dataset 眼部状态脑电图数据集

该数据集包含了 EEG 测量的实例,其输出是眼睛是睁开还是闭合的状态。数据集中的值按时间顺序排列,其中 0 表示眼睛睁开状态,1 表示眼睛闭合状态。数据集包含 14 个 EEG 测量值,分别标记为 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4 。

直接使用:https://go.hyper.ai/RTBDy

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. 一键部署 DeepSeek-Prover-V1.5

该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该教程是对模型进行一键部署 Demo 的分步使用。

直接使用:https://go.hyper.ai/MevMB

2. LLaVA OneVision 多模态全能视觉模型 Demo

该模型能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这三个重要 计算机视觉 场景性能瓶颈的单模型。进入官网克隆并启动容器,直接复制 API 地址,即可对模型进行推理体验。

直接使用:https://go.hyper.ai/Dcg74

3. 在线教程|大人,文生图的时代又变了!SD 核心成员自立门户,首个模型 FLUX.1 硬刚 SD 3 和 Midjourney

文生图模型的竞争愈发激烈!前 Stable Diffusion 核心成员自立门户,发布了文生图模型 FLUX,从商业用途到开源个人使用,全面覆盖。生成效果非常接近真人实拍,人物细节表现十分逼真。目前 hyper.ai 已上线「FLUX ComfyUI(含黑神话悟空 LoRA 训练版)」,点击以下链接即可根据教程部署。

直接使用:https://go.hyper.ai/trQhv

社区文章精选

1. 数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

对于人脸识别、 DeepFake 乱象,亟需升级人脸识别和伪造检测技术,以精确判断被篡改的图像和视频。 HyperAI 超神经为大家汇总了常用的 11 个人脸识别、 DeepFake 数据集,点击一键下载。

查看完整汇总:https://go.hyper.ai/EMKo2

2. Apple Intelligence 深夜炸场!苹果发布 4 颗自研芯片,iPhone/iWatch/AirPods 大升级

在 9 月 10 日的秋季新品发布会上,苹果推出 iPhone 16 、 AirPods 4 、 Apple Watch Series 10 等新品,基于自研芯片,在性能上实现了重大飞跃,同时全面融入 Apple Intelligence,为用户带来前所未有的 智能体 验。本文是对 Apple 秋季新品发布会的全面报道。

查看完整报道:https://go.hyper.ai/H7P8X

3. 灵敏度提高 56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

在对蛋白质的识别过程中,蛋白质序列的同源性鉴定是其中一项至关重要的任务。为解决蛋白质远同源性研究的痛点,基于蛋白质语言模型和密集检索技术,香港中文大学李煜,联合复旦大学智能复杂体系实验室、上海 人工智能 实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein 提出了一种超快速、高灵敏度的同源物检测框架——密集同源物检索器。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/vLAej

4. 基于 2,500 平方公里实景数据,北师大团队提出 StarFusion 模型,实现高空间分辨率图像预测

北京师范大学地表过程与资源生态国家重点实验室陈晋团队,提出了一种双流时空解耦融合架构模型 StarFusion,该模型能够克服大多数现有 深度学习 算法需要 HSR 时间序列图像进行训练的问题,充分实现高空间分辨率图像的预测。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/7LmzA

热门百科词条精选

  1. Sigmoid 函数
  2. 配对 t 检验 Paired t-Test
  3. 对比学习 Contrastive Learning
  4. 半 监督学习 Semi-Supervised Learning
  5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki
在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内 数据科学 领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点

  • 收录 400+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/875915.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue路由:Vue router

目录 路由的基本概念 1. 路由 2. 单页应用SPA 3.前端路由的实现方式 3.1Hash模式 3.2History模式 Vue router 4 1.概述 2.安装使用 3.基础用法 3.1路由匹配规则声明 3.2动态路由匹配 3.3路由命名 3.4路由重定向 3.5路由嵌套 3.6命名视图 3.6声明式导航&编程…

el-input设置type=‘number‘和v-model.number的区别

el-input设置typenumber’与设置.number修饰符的区别 1. 设置type‘number’ 使用el-input时想收集数字类型的数据,我们首先会想到typenumber,设置完type为number时会限制我们输入的内容只能为数字,不能为字符/汉字等非数字类型的数值&…

【网络安全】-文件下载漏洞-pikachu

文件操作漏洞包括文件上传漏洞,文件包含漏洞,文件下载漏洞。 文章目录  前言 什么是文件下载漏洞? 1.常见形式: 常见链接形式: 常见参数: 2.利用方式: 3.举例:pikachu不安全的文件…

智能语音技术在人机交互中的应用与发展

摘要:本文主要探讨智能自动语音识别技术与语音合成技术在构建智能口语系统方面的作用。这两项技术实现了人机语音通信,建立起能听能说的智能口语系统。同时,引入开源 AI 智能名片小程序,分析其在智能语音技术应用场景下的意义与发…

使用ESP8266和OLED屏幕实现一个小型电脑性能监控

前言 最近大扫除,发现自己还有几个ESP8266MCU和一个0.96寸的oled小屏幕。又想起最近一直想要买一个屏幕作为性能监控,随机开始自己diy。 硬件: ESP8266 MUColed小屏幕杜邦线可以传输数据的数据线 环境 Windows系统Qt6Arduino Arduino 库…

计算架构模式之负载均衡技巧

通用负载均衡算法 负载均衡算法 -轮询 & 随机 如果服务器挂掉了,那么负载均衡器还是可以感知到的,因为连接已经断掉了。 负载均衡算法-加权轮询 假设你有4核的和8核的,由于你的程序没有办法跑完CPU,那么有可能出现4核的和8核…

Coggle数据科学 | 科大讯飞AI大赛:人岗匹配挑战赛 赛季3

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。 原文链接:科大讯飞AI大赛:人岗匹配挑战赛 赛季3 赛题名称:人岗匹配挑战赛 赛季3 赛题类型:自然语言处理、文本匹配 赛题…

Pikachu靶场之csrf

CSRF 跨站请求伪造 CSRF入门及靶场实战 - FreeBuf网络安全行业门户 攻击者伪造恶意链接,诱使用户点击,这个链接附带了用户的认证凭据Cookie、Session等,执行操作如转账。 因为带了cookie、session,服务器认为是用户的行为。借用…

【诉讼流程-健身房-违约认定-私教课-诉讼书前提材料整理-民事诉讼-自我学习-铺平通往法律的阶梯-讲解(2)】

【诉讼流程-健身房-违约-私教课-前期法律流程-民事诉讼-自我学习-铺平通往法律的阶梯-讲解(2)】 (1)前言说明1、目的2、一个小测试1、更换原教练2、频繁更换教练3、上课估计拖课,占用上课时间,抽烟等。4、以…

谈谈LLM训练中的“过拟合”与“欠拟合”

如今,由于其出色的理解、生成和操纵人类语言的能力,语言模型已经成为焦点。据最新调查数据显示,大概30%的企业计划使用非结构化数据来提高大型语言模型(LLM)的准确性。在训练这些语言模型时,一个基本挑战是…

知识笔记合集

文章目录 vsCode可以运行c程序却无法运行c程序帆软填报属性不起作用java-实体类日期类型格式化Java-数据库id字段使用雪花算法IDEA-快捷键 vsCode可以运行c程序却无法运行c程序 vsCode中的tasks.json文件中添加"-lstdc" {"tasks": [{"type": &…

【vuetify】v-select 无法正常显示,踩坑记录!

一、上代码 template <v-selectv-model"editedUser.userRole":items"roles"label"角色"item-value"value":rules"[rules.required]" ></v-select>script const editedUser ref({userRole: customer // 设置…

【LabVIEW学习篇 - 21】:DLL与API的调用

文章目录 DLL与API调用DLLAPIDLL的调用 DLL与API调用 LabVIEW虽然已经足够强大&#xff0c;但不同的语言在不同领域都有着自己的优势&#xff0c;为了强强联合&#xff0c;LabVIEW提供了强大的外部程序接口能力&#xff0c;包括DLL、CIN(C语言接口)、ActiveX、.NET、MATLAB等等…

利用 Zero-1-2-3 进行多视图 3D 重建:从单图像到多视图 3D 模型的生成

3D 模型生成在计算机视觉领域有着广泛的应用&#xff0c;从虚拟现实到自动驾驶&#xff0c;基于单张图像的 3D 重建技术正在迅速发展。这篇博客将带你深入探索如何使用 Zero-1-2-3 框架进行多视图 3D 重建&#xff0c;通过详细解析该框架中的代码结构和功能&#xff0c;帮助你理…

MFC工控项目实例之十五定时刷新PC6325A模拟量输入

承接专栏《MFC工控项目实例之十四模拟量信号名称从文件读写》 1、在BoardTest.h文件中添加代码 class CBoardTest : public CDialog { public:short m_saveData[32];unsigned short m_cardAddr;CBoardTest(CWnd* pParent NULL); // standard constructorCButtonST m_btnS…

【新时代概论】新时代概论书目的结构(LP)

文章目录 前言一、结构导论第一章、新时代坚持和发展中国特色社会主义第二章、以中国式现代化全面推进中华民族伟大复兴第三章、坚持党的全面领导第四章、坚持以人民为中心第五章、全面深化改革开放第六章、推动高质量发展第七章、社会主义现代化建设的教育、科技、人才战略第八…

海外云手机怎么实现TikTok多账号防关联?

TikTok多账号运营&#xff0c;作为众多用户选择的引流策略&#xff0c;旨在通过多账号的协同作用&#xff0c;更快速、高效地推动主账号的流量增长。然而&#xff0c;这一策略面临着一个关键难题——TikTok账号防关联。本文将简要介绍海外云手机如何解决这一问题。 在TikTok多账…

2023年408真题计算机网络篇

https://zhuanlan.zhihu.com/p/6954228062023年网络规划设计师上午真题解析TCP流量计算_哔哩哔哩_bilibili 1 1在下图所示的分组交换网络中&#xff0c;主机H1和H2通过路由器互联&#xff0c;2段链路的数据传输速率为100 Mb/s、时延带宽积 &#xff08;即单向传播时延带宽&am…

Solana核心漏洞技术详解

8月9日&#xff0c;Solana团队齐心协力解决了一个严重的安全漏洞。这次秘密修复详情可以在GitHub上查询到。CertiK团队对这一漏洞进行了深入分析。 1. Solana漏洞起因 8月9日&#xff0c;Solana验证者和客户端团队齐心协力解决了一个严重的安全漏洞。Solana验证者Laine表示&am…

redis底层—数据结构

1.动态字符串sds redis没有直接使用c语言的字符串&#xff0c;是因为c语言的字符串存在一下问题&#xff1a; 1.获取字符串长度的需要通过运算 2.非二进制安全 3.不可修改 优点&#xff1a; 1.获取字符串长度的时间复杂度为0&#xff08;1&#xff09; 2.支持动态扩容 3.减少内…