北京人工智能数据运营平台发布,并开源大规模数据集

6月14日,AI行业顶级盛会2024北京智源大会正式拉开帷幕。作为大会的重要组成部分,智源大会“人工智能+数据新基建”论坛同步召开。本论坛由北京智源人工智能研究院主办,中国互联网协会人工智能工委会和中国移动研究院承办。本次论坛邀请到来自中国互联网协会、中国移动通信集团有限公司、中国电子云、北京大学、复旦大学、南方电网、中国航信、国双科技等单位和学校的领导和专家,共同探讨面向人工智能+的数据汇聚、生产、挖掘、交易、流通的新路径,探索关于行业数据建设和模型训练、数据应用平台建设、数据智慧运营的新思路。同时,大会现场发布了“北京人工智能数据运营平台”(包括平台上线、重磅数据集开源和数据工具FlagData3.0),并启动了“行业数据集—场景应用创新计划”,为千行百业大模型落地构筑重要的数据基础。

构建平台能力,创新运营模式

北京人工智能数据运营平台:支持三种数据使用模式

本次论坛上,智源研究院联手京能数字产业有限公司(下简称京能数产)发布了北京人工智能数据运营平台。北京人工智能数据运营平台是在国家发展改革委、国家数据局指导下,北京市发展改革委主导,市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位支持推动,由智源研究院牵头与京能数产等单位共建。数据平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。

目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。

开源超大规模高质量数据集

1、全球最大的多行业中英双语数据集IndustryCorpus 1.0,

本次论坛上,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0 ,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。同时,智源选取医疗行业数据集,完成了示范模型训练,取得了优异的模型行业能力提升,为行业模型训练提供高质量范例和参考。

当前,大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。行业数据具有特殊性、稀缺性的特点。特殊性是由于其包含了领域特有的知识、术语、规则、流程和逻辑,这些特性往往难以在通用数据集中充分覆盖。稀缺性是指行业数据严重短缺。当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。因此,智源研究院在过去半年不断积累,致力于打造多行业训练数据集IndustryCorpus。

IndustryCorpus 1.0数据集包含3.4TB开源的行业预训练数据(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。IndustryCorpus 1.0的发布,大幅提升了全球开源行业数据集的数据量和丰富度,改善开源行业数据集匮乏的现状,显著增加公共领域高质量行业数据的可获取性,为企业、开发者、科研人员提供了具备行业特性、内容丰富、安全的训练资源,减少开发成本,提高开发效率,助力大模型快速向行业应用阶段发展。

图1 本次开源行业数据量与其他开源数据量的部分对比(GB)

IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB。除此之外,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布,有望大幅提升模型在专业领域的知识性,助力大模型的行业落地应用。

图2 本次开源行业数据集按行业分布情况

为验证行业数据集应用效果,智源选取医疗行业数据集进行示范模型训练。智源基于Aquila通用模型完成继续预训练、SFT训练和RLHF训练,取得了优异的模型行业能力提升。对比继续预训练前的模型,在客观指标方面,采用医疗行业数据集经过继续预训练、SFT和DPO之后的示范医疗模型总体医疗能力提升20.1%(见图3)。在主观评测方面,在经过医疗行业SFT数据和DPO数据的训练后,示范医疗对话模型能力胜率达到82.2%,5分制多轮对话能力CMTMedQA评分达到4.45(见图4)。综上,行业数据集在一定程度上解决了用户行业数据获取难、训练效果不佳的难题。

图3 客观指标方面,采用医疗行业预训练数据集继续预训练、SFT和DPO之后的示范医疗模型总体医疗能力提升20.1%

图4 主观评测方面,经过医疗行业SFT数据和DPO数据训练后,示范医疗对话模型能力胜率达到82.2%

2、启动千万级指令微调数据集 InfinityInstruct 的开源项目

高质量的指令数据是大模型性能的“养料”。本次论坛上,智源研究院发布的千万级高质量指令微调数据集开源项目,包括基于开源数据集进行高质量筛选的数据,和通过数据合成方法构造的高质量指令数据。智源对现有开源数据进行领域分析确保合理类型分布,对大规模数据进行质量筛选保留高价值数据,针对开源数据缺乏的领域和任务,进行数据增广,并结合人工标注对数据质量进行控制,避免合成数据分布偏差。本次大会开源首批300万条经过模型验证的高质量中英文指令数据InfInstruct-3M,并将在未来一个月内完成 InfinityInstruct 千万条指令数据的全部验证和开源。为了验证InfInstruct-3M的质量,我们在Mistral-7B上面进行微调训练得到对话模型InfInstruct-3M-Mistral-7B。在ApacheEval的评测中,该模型明显优于其它同量级的对话模型(见图5)。这意味着,用户可以使用InfInstruct数据集,再加以自有应用数据,对基础模型进行微调,轻松获得专有的高质量中英双语对话模型。

图5 使用ApacheEval评测对比多个对话模型的能力

3、构建通用数据集和行业数据集两大专区,满足用户不同需求

今年以来,智源汇聚了海量可直接用于算法训练的通用数据集和行业数据集。本次论坛上,智源发布通用数据集和行业数据集两大专区。

通用数据集为用于通用基础模型训练的多种模态数据。当前已经汇聚在数据运营平台的通用数据集有116个,总数据量700.27TB,其中文本数据9.76TB,多模态图文数据量75.31TB,视频数据量615TB,音频数据0.2TB。

行业数据集包含了行业领域特有的知识和信息,用于训练各种行业模型,推动人工智能从通用向专业化、精细化持续发展。目前行业专区数据集28个,数据量4.33TB,其中文本数据集22个,数据量4.3TB,多模态图文行业数据集6个,数据量0.03TB。

4、全面升级数据处理工具FlagData3.0,助力数据高质量发展

数据质量直接决定了大模型的输出能力,使用数据处理工具不断提升数据质量变得日益重要。智源研究院长期投入数据建设工作,开发了一批数据处理的高效工具。FlagData数据工具·开源项目包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为提升数据质量带来直接的便利。

本次论坛上,FlagaData2.0全面升级为FlagData 3.0,一方面提供了傻瓜式语言数据处理工具,支持一键式搭建数据处理工作流。另一方面,为专业的进阶用户提供数十种数据加工算子,支持自定义数据处理流程。

三、“行业数据集—场景应用创新计划”启动,加速千行百业大模型落地

为推动人工智能在各行业深入应用、为大模型行业落地提供数据支撑,本次论坛上,智源研究院和中国互联网协会、中国互联网协会人工智能工作委员会联合发布“行业数据集—场景应用创新计划”。向全国企业征集场景应用模型需求,定向提供高质量行业数据集,助力一批场景应用模型的创新。最后,将依据模型应用成果组织评选优秀案例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/713537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2-5 基于matlab的信号的希尔伯特-黄变换

基于matlab的信号的希尔伯特-黄变换,IMF分解,对IMF进行Hilbert处理,绘制二维/三维时-频图,时间-能量图(瞬时能量谱) ,频率-能量图(希尔伯特谱)。程序已调通,可直接运行。 2-5 希尔伯…

java Springboot网上音乐商城(源码+sql+论文)

1.1 研究目的和意义 随着市场经济发展,尤其是我国加入WTO ,融入经济全球化潮流,已进入国内外市场经济发展新时期,音乐与市场联系越来越紧密,我国音乐和网上业务也进入新历史发展阶段。为了更好地服务于市场&#xff0…

11.泛型、trait和生命周期(上)

标题 一、泛型数据的引入二、改写为泛型函数三、结构体/枚举中的泛型定义四、方法定义中的泛型 一、泛型数据的引入 下面是两个函数,分别用来取得整型和符号型vector中的最大值 use std::fs::File;fn get_max_float_value_from_vector(src: &[f64]) -> f64…

.net8 blazor auto模式很爽(五)读取sqlite并显示(2)

在BlazorApp1增加文件夹data&#xff0c;里面增加类dbcont using SharedLibrary.Models; using System.Collections.Generic; using Microsoft.EntityFrameworkCore;namespace BlazorApp1.data {public class dbcont : DbContext{public dbcont(DbContextOptions<dbcont>…

Python进阶:从函数到文件的编程艺术!!!

第二章&#xff1a;Python进阶 模块概述 函数是一段可重复使用的代码块&#xff0c;它接受输入参数并返回一个结果。函数可以用于执行特定的任务、计算结果、修改数据等&#xff0c;使得代码更具模块化和可重用性。 模块是一组相关函数、类和变量的集合&#xff0c;它们被封…

vs+qt5.0 使用poppler 操作库

Poppler 是一个用来生成 PDF 的C类库&#xff0c;从xpdf 继承而来。vs编译库如下&#xff1a; vs中只需要添加依赖库即可 头文件&#xff1a;

2.2 抽头

目录 为什么要抽头 什么是抽头 接入系数 怎么抽头 信号源端抽头 负载端抽头 例题分析 要点总结 为什么要抽头 阻抗转换&#xff0c;使信号源内阻Rs与负载电阻RL变得很大&#xff0c;分流小&#xff0c;再使用并联方式。 什么是抽头 接入系数 电容越大&#xff0c;分压越…

初识PHP

一、格式 每行以分号结尾 <?phpecho hello; ?>二、echo函数和print函数 作用&#xff1a;两个函数都是输出内容到页面中&#xff0c;多用于代码调试。 <?php echo "<h1 styletext-align: center;>test</h1>"; print "<h1 stylet…

使用python绘制三维曲线图

使用python绘制三维曲线图 三维曲线图定义特点 效果代码 三维曲线图 三维曲线图&#xff08;3D曲线图&#xff09;是一种用于可视化三维数据的图表&#xff0c;它展示了数据在三个维度&#xff08;X、Y、Z&#xff09;上的变化。 定义 三维曲线图通过在三维坐标系中绘制曲线…

AI大模型技术揭秘-参数,Token,上下文和温度

深入理解 AI 大模型:参数、Token、上下文窗口、上下文长度和温度 人工智能技术的飞速发展使AI大模型大放异彩,其中涉及的“参数”、“Token”、“上下文窗口”、“上下文长度”及“温度”等专业术语备受瞩目。这些术语背后究竟蕴含何意?它们如何影响AI大模型的性能?一起揭开…

htb_Freelancer

端口扫描 80 88 389 445 扫描ldap协议相关漏洞&#xff0c;没有发现 扫描子域名&#xff0c;加入/etc/hosts&#xff08;后面发现没用&#xff09; 枚举域用户 目录扫描&#xff0c;发现一个/admin目录 访问后发现要账号密码 访问80端口&#xff0c;注册一个freelancer用…

关于二分法的理解(以JS为例)

算法介绍 基本概念 二分查找算法&#xff0c;又称折半查找算法&#xff0c;是一种在有序数组中查找特定元素的高效方法。它的核心思想是将数组分成两半&#xff0c;然后根据目标值与中间元素的比较结果来决定是继续在左半部分还是右半部分进行搜索。 工作原理 初始化&#…

Vue3+Vite报错:vite忽略.vue扩展名 Failed to resolve import ..... Does the file exist?

Vue3Vite报错&#xff1a;vite忽略.vue扩展名 Failed to resolve import … Does the file exist? 先看报错&#xff1a; 分析原因 原因是我们没有写后缀名 建议你在你的vite.config.js中加上如下配置 import { defineConfig } from "vite"; import vue from &qu…

股指期货功能

其金融期货的本质&#xff0c;决定了股指期货具有以下几方面特点&#xff1a; &#xff08;1&#xff09;交割方式为现金交割&#xff1b; &#xff08;2&#xff09;股指期货的持有成本较低&#xff1b; &#xff08;3&#xff09;股指期货的保证金率较低&#xff0c;杠杆性…

R 初级教程之一

IT的发展目前已经相当的内卷&#xff0c;到处都在说24年是将来4年最难的一年&#xff01;确实是&#xff0c;眼下各大厂商都在疯狂的裁员砍掉不营利的业务&#xff0c;收紧业务&#xff0c;不再盲目的扩张。小公司更是水深火热&#xff0c;无以言表。近期有个医院联系让使用R给…

Zombie Animations Set

僵尸动画合集,包括成对攻击/抓取、各种移动方式、爬行、击中反应、死亡动画等。 生产说明 动画总数:99(包括22个位置变化) 配对动画:36 攻击次数:6次 爬网:9 命中反应:6 空转:14 行程2 跑步次数:9次 短跑:2 匝数:3 步行次数:12次 免责声明 任何游戏玩法蓝图都不包…

【计算机毕业设计】240基于微信小程序的校园综合服务平台

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

禁止methtype联网

mathtype断网_如何禁止mathtype联网-CSDN博客https://blog.csdn.net/qq_41060221/article/details/128144783

StarNet实战:使用StarNet实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度&#xff0c;DP多卡&#xff0c;EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

微服务开发与实战Day09 - Elasticsearch

一、DSL查询 Elasticsearch提供了DSL&#xff08;Domain Specific Language&#xff09;查询&#xff0c;就是以JSON格式来定义查询条件。类似这样&#xff1a; DSL查询可以分为两大类&#xff1a; 叶子查询&#xff08;Leaf query clauses&#xff09;&#xff1a;一般是在特…