构建高质量数据集与智能数据工程平台:播客AI Odyssey深度对话实录

对话整数智能联创和前IDEA研究员:构建高质量数据集与智能数据工程平台 - AI Odyssey | 小宇宙 - 听播客,上小宇宙

人工智能技术的日益深远发展,对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中,已有的研究和实践表明,增大数据量或者增大模型都能带来性能上的提升,但是单一地扩大数据规模或增加大模型规模,都不免面临性能提升的瓶颈。在实践领域,在经过模型迭代的发展阶段后,数据的提升成为了推动人工智能领域发展的重要引擎和增长点,在这个过程中,数据质量的提升尤为重要。本期播客中,来自整数智能的算法工程师刘明皓和来自 Brandeis 计算机科学的博士研究生杨子敖与主持人深入探讨了如何为大模型训练和推理构建高质量的数据集,以及如何搭建智能数据工程平台。

大模型训练的Scaling Laws

关于大模型训练的Scaling Laws,各个研究团队都在基于自己的实验慢慢完善这个领域的研究,同时数据混合、去重策略和不同的训练场景(如Continual Pre-Training)等差异对Loss的影响也比较大,现在希望利用scaling law从而很准确的预测training performance仍然是有挑战且耗时的。整数智能参与搭建的开源大模型 MAP-Neo,在测试中体现出了优秀的性能表现,高质量的数据使得大模型在一些场景中的表现甚至超越目前市面上流通的先进的商用闭源模型,我们也提出了自己的NEO Scaling Law,在我们的实验中Loss下降的要比Chinchilla Law更快,这说明我们的语料更丰富且更高质量,所以额外添加了正则化项log(D),虽然在D极大时会有影响,但是对于我们的场景来说NEO Scaling Law拟合得更好。

NEO Scaling Law

MAP-Neo-7B在不同测试中的表现

整数智能作为专业的数据标注与管理企业,面对不同的用户,会根据不同用户所提供的不同业务场景需求,提出数据配比的建议,平衡productivity与entertainment。作为人工智能大模型产业链中的一环,整数智能Release了Matrix与PIN等等Datasets,也会依据客户具体的需求,充分调动既往经验和专业素养,站在用户需求这一主观视角,结合客观事实依据,为用户提供大模型建构的有效建议。

高质量的大模型训练数据

就什么是高质量数据,高质量的训练数据是如何在具体应用中影响大模型表现,整数智能通过近期发布的开源大模型MAP-Neo给出了现阶段的见解与看法。MAP-Neo是基于4.7T的中英文代码数据集训练而成,这一数据集是基于近PB的庞大原始数据规模清洗而成。对于MAP-Neo训练数据集的清洗,MAP团队采用了最经典的启发性过滤、内容抽取和低质量数据过滤,而就低质量数据过滤,团队综合应用了多种范式,从启发式的规则、数据去重,再到对数据进行规范性的要求,以及基于黑名单对于数据中可能具有敏感信息的部分进行敏感性的评价。在这一机制下,数据的淘汰率非常高,基于高质量数据的严格清洗和筛选流程,使得MAP-Neo大模型能够有一个超高质量的训练数据集。而模型的性能的显著提升在已有的测试中已经得到了多方验证。

MAP-Neo模型简介

安全和有用在一些情况下是互斥的,会产生“HARMFUL”和“HELPFUL”之间的矛盾,相似的,高维度的数据清洗同样会带来数据质量与之间是具有矛盾的,这就要求开发者在二者之间进行平衡与取舍。而针对不同来源的数据和文本语料的质量评判,不同的模型和场景也有不同的判断标准,例如来自WIKI的数据筛选流程可能并适用于论坛。针对不同数据来源逐一定制相关模型和规则进行相应的微调训练,也是当下耗费成本较高的挑战。

数据质量具体怎么影响模型的训练效果,学术界和工业界有着不尽相同的判断标准。杨子敖在播客中提到,学术界对于模型评判有一个明确的指标,依据特定的Valid Dataset为训练数据时的标准,新的训练数据训练出的模型性能是有所提高还是有所损伤,来判断数据质量对模型训练效果的影响。在这里,学术研究中提出了一种把数据集中的每一个点移除后重新评估模型表现,观察模型表现会有什么变化,进而评估该数据集对于这一模型的训练效果的方法,同时子敖组的最新工作《On the Inflation of KNN-Shapley Value》与《Revisit, Extend, and Enhance Hessian-Free Influence Functions》分别从Shapley Value和Influence Function两个不同的角度来进行数据估值和筛选。

在工业界,模型性能的评判会随着具体应用场景的切换而相应地发生变化。当现有研究和技术足以支撑优质的基础模型,在此基础上进行相应的调整,就可以使模型在不同的垂类中具备行业的相关知识。大多数时候,用户端眼中模型的好坏,是非常具有主观性质的,对模型的调整需要从用户推理和思考的维度出发,充分理解用户的需求,甚至在用户需求尚未明确的时候能够精准提炼出用户的需求。在具体应用场景中,我们希望训练出的大模型能够帮助甚至代替该行业中业务最好的专业人员思考。因此在实际商业应用中,依据行业场景进行数据集建构并非一个短期工作,数据集建构团队需要充分了解用户的需求,并调研该行业最佳业务人员的相关使用方法和思考习惯,磨合的时间越长,收集的数据越贴近现实场景,训练出来的大模型越能更好地理解指令并执行,从而成为该特定业务场景下的优质模型。

但在医疗、法律等涉及到数据隐私的行业,数据标注的过程会更加困难,无论是数据的采集、还是SFT数据的构造,都会面临数据安全带来的挑战,需要有一个足够可信的第三方来对整个数据处理流程做相应的监管。

在实际应用中,跨行业的数据集构建很难抽象为一个产品,整数智能基于不同用于的对样需求,提供一对一的对接和服务,将不同用户的需求整理成专属的标注文档,并在核验指标上进行量化,将数据标注质量转化为可以量化的数据标准,将复杂的人与人之间的沟通理解对齐为可以量化的数据标准,从而高效触达用户理想的数据集构想。

在当前的商用领域,数据壁垒在每一个垂类领域都是存在并将长期存在的现象。在这一环境中,用户数据和不断实时更新的数据都是非常宝贵的财富。即便如此,业界也在不断探索人工智能领域的民主化进程。整数智能参与开发的开源大语言模型MAP-NEO就是推动高质量大语言模型开源、促进大模型与人工智能技术民主化、助力科研领域发展的重要探索与成功实践。

智驾探索

在数据采集的过程中,最为复杂的环节是资质和标定,这关系到各个传感器的布局、互联,以及标定精度上的取舍。对采集数据的标定也有不同的策略选择,需要标注方通过方案对数据标定策略进行约束和统一,判断哪些数据在当前应用场景下具有最高的标注价值。在下半年即将发布的开源大模型的训练数据集的选择和建构过程中,整数智能将会提取采集数据的主干特征,这些特征在采集数据中会表现为一些向量。在对数据的采集和分析过程中,整数智能的处理方式是先对这些向量进行聚类,并以簇的方式对数据进行大规模的采样。以这样的方式采集到的数据,一簇中的大部分数据只需要标注3-5帧,模型就会有很好地表现。通过对具有代表性的帧进行预标注的方式进行数据生产,在智驾模型的训练过程中,只需要对已经审核过的数据进行调整,即可适用于大部分的智驾场景。在数据集构建的过程中,整数智能团队也注意到了上述流程可能带来的场景局限,如果有现有数据无法很好应对的案例,则需要在剩下尚未被标注的采集数据中进行Data Mining,或者进一步判断是否要对特定场景下的数据进行采集,这时候就可以为数据采集设计一个trigger, 只有达到满足这一特殊场景需求的阈值,才对该场景下的数据进行采集。如此,数据集既能涵盖高效低成本地进行绝大部分常见自驾场景,又能囊括驾驶过程中可能出现的特殊情况。

整数智能在基于主观性的、多元化的多种行业垂类中致力于更加专业的定制化服务,同时不断将生产和服务经验复用到人工智能技术探索的过程中,不断加深、拓宽高质量数据集,并用创新性、综合性的思路进行多方尝试,不断为业界发展提供更具实用性的高效产品与专业服务。


整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家,拥有知识产权数十项,通过ISO 9001、ISO 27001等国际认证,也多次参与人工智能领域的标准与白皮书撰写,也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习笔记之监督学习

基本概念 用于训练模型的数据集称为:训练集 成本函数/代价函数:指示模型的运行情况,用于衡量训练数据与该直线的拟合程度。将预测值和目标值做差,该差值也被称为“损失值”。 例如我们需要计算平均的平方误差来衡量 成本函数/…

数字信号处理及MATLAB仿真(5)——z变换

采样的其他概念咱们后面再慢慢的讲述吧,先把z变换的程序给大家展示一下,总的来说呢,就用一个函数——ztran就行了。在 MATLAB 中,可以使用 ztrans 函数来进行 Z 变换。ztrans 函数用于对离散时间信号或系统进行 Z 变换&#xff0c…

Linux防火墙-Netfilter和iptables

文章目录 防火墙概述Netfilternetfilter五个勾子函数三种报文流向 iptables的组成五表table五链chainiptables规则添加时考量点实验:控制某个主机谁可以访问谁不能访问1.实验环境准备2.iptables命令格式详解:3.拒绝某个服务器ping 防火墙概述 防火墙&am…

安泰电压放大器的选型方案是什么

电压放大器是一种常见的电路元件,广泛应用于各种电子设备中。在选择电压放大器的时候,我们需要考虑一系列因素,以确保选型方案能够满足实际需求。下面安泰电子将详细介绍电压放大器选型的主要考虑因素,包括应用需求、技术性能、成…

Backend - visual studio 安装配置运行

目录 一、安装 (一)visual studio的内存需求很大! (二)自定义工具和SDK的安装位置 1. 菜单栏搜索regedit,进入注册表编辑器 2. 修改SharedInstallationPath项的路径 3. 重启电脑 4. 重新打开visual studio …

EtherCAT笔记(六)—— 分布时钟之一

目录 1. 分布时钟的功能 2. 分布时钟涉及到的概念 2.1 系统时间 2.2 参考时钟 & 从时钟 2.3 主站时钟 2.4 本地时钟 2.4.1 本地时钟的初始偏移量 2.4.2 本地时钟的时钟漂移 2.5 本地系统时间 2.6 传输延时 人们理解知识的一个阻碍就是那些从没见过的概念和这些概念的随意使…

Vue2/Vue3实现全局/局部添加防篡改水印的效果。删除元素无效!更改元素属性无效!支持图片、元素、视频等等。

水印目的 版权保护:水印可以在图片、文档或视频中嵌入作者、品牌或版权所有者的信息,以防止未经授权的复制、传播或使用。当其他人使用带有水印的内容时,可以追溯到原始作者或版权所有者,从而加强版权保护。 身份识别:水印可以用作作者或品牌的标识符,使观众能够轻松识…

Web 基础与HTTP 协议

域名的概述 (1 )域名的结构 (2 )域名结构类型 根域:指的是根服务器,要用来管理互联网的主目录,全世界只有13台。1个为 主根服务器,放置在美国。其余12 个均为辅根服务器,其中9个放置在美国;欧 洲2个&…

一文清晰了解表格表单

一、表格 要想实现下述内容&#xff1a; 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"GBK"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><…

无线LED显示屏:信息传播新潮流

随着信息技术的飞速发展&#xff0c;无线LED显示屏以其独特的优势在信息传播领域崭露头角。本文将详细介绍无线LED显示屏的特点及其在现代信息传播中的作用。 组网规模的无限可能 无线LED显示屏通过GSM、GPRS、CDMA、3G等无线网络实现信息的远程、实时发布&#xff0c;采用TCP/…

cadence23中 PCB Editer导入元器件

cadence的文件架构&#xff1a; 1 .dra文件是元器件封装的可编辑文件 2 .psm是cadence元器件封装的cadence的识别文件&#xff0c;cadence只识别.psm,不识别.dra 3..dra是元器件的封装文件&#xff0c;由.pad焊盘文件和丝印组成 .dra .psm文件放在一个文件夹中&#xff0c;…

31. 1049. 最后一块石头的重量 II, 494.目标和,474.一和零

class Solution { public:int lastStoneWeightII(vector<int>& stones) {int sum 0;for(int stone : stones) sum stone;int bagSize sum /2;vector<int> dp(bagSize 1, 0);for(int i 0; i < stones.size(); i){ //遍历物品for(int j bagSize; j >…

迅为RK3588S开发板广泛用于边缘技术,人工智能,智能家居,智慧零售,智能网关等

性能强 iTOP-3588S开发板采用瑞芯微RK3588S处理器&#xff0c;是全新一代AloT高端应用芯片&#xff0c;搭载八核64位CPU&#xff0c;四核Cortex-A76和四核Cortex-A55架构主频高达2.4GHZ&#xff0c;8GB内存&#xff0c;32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1…

动漫3d模型设计需要注意什么?---模大狮模型网

设计动漫3D模型时&#xff0c;有几个方面需要注意&#xff1a; 保持角色风格一致性&#xff1a; 动漫通常有独特的风格和美学&#xff0c;设计时要确保模型与所代表的角色或作品的整体风格相符。注意保持线条和比例的一致性&#xff0c;使模型能够忠实地呈现原作的特点。 注重…

c++初阶学习----入门(下)

承接上篇&#xff0c;我们在上一篇博客中提及过&#xff0c;我们c入门还有一些。这一篇博客会着重写重载和引用。当然还会有一些其他的知识点。但是大家主要是需要了解这两个重点。好&#xff0c;那么我们马上来讲讲今天的主题。 引用 引用的含义 好我们还是先看含义引⽤不是…

【GreenHills】GHS-Servecode的查看和说明

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 在Green Hills客户申请license试用以及正式文件的Servecode编号会有不同&#xff0c;该文档对此进行说明并如何主动查看Servecode&#xff0c;并且说明Servecode的类别&#xff0c;通过Servecode了解客户授权情况。 …

【鸿蒙学习笔记】使用axios进行HTTP数据请求

官方文档&#xff1a;网络管理开发概述 目录标题 访问淘宝公开接口&#xff08;测试数据&#xff09;第1步&#xff1a;module.json5 配置网络授权第2步&#xff1a;下载axios第3步&#xff1a;源码第4步&#xff1a;启动模拟器第5步&#xff1a;启动entry第6步&#xff1a;操…

ChIP项目文章CMI(IF=24.1)|IRF1激活可促进辐射诱导的细胞死亡和炎症反应

2024年6月7日&#xff0c;四川大学张舒羽教授团队在Cellular & Molecular Immunology&#xff08;IF24.1&#xff09;期刊上发表了题为“Chaperone-and PTM-mediated activation of IRF1 tames radiation-induced cell death and inflammation response”的文章&#xff0c…

专注于国产FPGA芯片研发的异格技术Pre-A+轮融资,博将控股再次投资

近日&#xff0c;苏州异格技术有限公司&#xff08;以下简称“异格技术”&#xff09;宣布成功完成数亿元的Pre-A轮融资&#xff0c;由博将控股在参与Pre-A轮投资后&#xff0c;持续投资。这标志着继2022年获得经纬中国、红点中国、红杉中国等机构数亿元天使轮融资后&#xff0…

FastAPI 学习之路(三十四)数据库多表操作

之前我们分享的是基于单个表的数据库表的操作&#xff0c;我们在设计数据库的时候也设计了跨表&#xff0c;我们可以看下数据库的设计 class User(Base):__tablename__ "users"id Column(Integer, primary_keyTrue, indexTrue)email Column(String(10), uniqueTr…