构建高质量数据集与智能数据工程平台：播客AI Odyssey深度对话实录

对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台 - AI Odyssey | 小宇宙 - 听播客，上小宇宙

人工智能技术的日益深远发展，对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中，已有的研究和实践表明，增大数据量或者增大模型都能带来性能上的提升，但是单一地扩大数据规模或增加大模型规模，都不免面临性能提升的瓶颈。在实践领域，在经过模型迭代的发展阶段后，数据的提升成为了推动人工智能领域发展的重要引擎和增长点，在这个过程中，数据质量的提升尤为重要。本期播客中，来自整数智能的算法工程师刘明皓和来自 Brandeis 计算机科学的博士研究生杨子敖与主持人深入探讨了如何为大模型训练和推理构建高质量的数据集，以及如何搭建智能数据工程平台。

大模型训练的Scaling Laws

关于大模型训练的Scaling Laws，各个研究团队都在基于自己的实验慢慢完善这个领域的研究，同时数据混合、去重策略和不同的训练场景（如Continual Pre-Training）等差异对Loss的影响也比较大，现在希望利用scaling law从而很准确的预测training performance仍然是有挑战且耗时的。整数智能参与搭建的开源大模型 MAP-Neo，在测试中体现出了优秀的性能表现，高质量的数据使得大模型在一些场景中的表现甚至超越目前市面上流通的先进的商用闭源模型，我们也提出了自己的NEO Scaling Law，在我们的实验中Loss下降的要比Chinchilla Law更快，这说明我们的语料更丰富且更高质量，所以额外添加了正则化项log(D)，虽然在D极大时会有影响，但是对于我们的场景来说NEO Scaling Law拟合得更好。

NEO Scaling Law

MAP-Neo-7B在不同测试中的表现

整数智能作为专业的数据标注与管理企业，面对不同的用户，会根据不同用户所提供的不同业务场景需求，提出数据配比的建议，平衡productivity与entertainment。作为人工智能大模型产业链中的一环，整数智能Release了Matrix与PIN等等Datasets，也会依据客户具体的需求，充分调动既往经验和专业素养，站在用户需求这一主观视角，结合客观事实依据，为用户提供大模型建构的有效建议。

高质量的大模型训练数据

就什么是高质量数据，高质量的训练数据是如何在具体应用中影响大模型表现，整数智能通过近期发布的开源大模型MAP-Neo给出了现阶段的见解与看法。MAP-Neo是基于4.7T的中英文代码数据集训练而成，这一数据集是基于近PB的庞大原始数据规模清洗而成。对于MAP-Neo训练数据集的清洗，MAP团队采用了最经典的启发性过滤、内容抽取和低质量数据过滤，而就低质量数据过滤，团队综合应用了多种范式，从启发式的规则、数据去重，再到对数据进行规范性的要求，以及基于黑名单对于数据中可能具有敏感信息的部分进行敏感性的评价。在这一机制下，数据的淘汰率非常高，基于高质量数据的严格清洗和筛选流程，使得MAP-Neo大模型能够有一个超高质量的训练数据集。而模型的性能的显著提升在已有的测试中已经得到了多方验证。

MAP-Neo模型简介

安全和有用在一些情况下是互斥的，会产生“HARMFUL”和“HELPFUL”之间的矛盾，相似的，高维度的数据清洗同样会带来数据质量与之间是具有矛盾的，这就要求开发者在二者之间进行平衡与取舍。而针对不同来源的数据和文本语料的质量评判，不同的模型和场景也有不同的判断标准，例如来自WIKI的数据筛选流程可能并适用于论坛。针对不同数据来源逐一定制相关模型和规则进行相应的微调训练，也是当下耗费成本较高的挑战。

数据质量具体怎么影响模型的训练效果，学术界和工业界有着不尽相同的判断标准。杨子敖在播客中提到，学术界对于模型评判有一个明确的指标，依据特定的Valid Dataset为训练数据时的标准，新的训练数据训练出的模型性能是有所提高还是有所损伤，来判断数据质量对模型训练效果的影响。在这里，学术研究中提出了一种把数据集中的每一个点移除后重新评估模型表现，观察模型表现会有什么变化，进而评估该数据集对于这一模型的训练效果的方法，同时子敖组的最新工作《On the Inflation of KNN-Shapley Value》与《Revisit, Extend, and Enhance Hessian-Free Influence Functions》分别从Shapley Value和Influence Function两个不同的角度来进行数据估值和筛选。

在工业界，模型性能的评判会随着具体应用场景的切换而相应地发生变化。当现有研究和技术足以支撑优质的基础模型，在此基础上进行相应的调整，就可以使模型在不同的垂类中具备行业的相关知识。大多数时候，用户端眼中模型的好坏，是非常具有主观性质的，对模型的调整需要从用户推理和思考的维度出发，充分理解用户的需求，甚至在用户需求尚未明确的时候能够精准提炼出用户的需求。在具体应用场景中，我们希望训练出的大模型能够帮助甚至代替该行业中业务最好的专业人员思考。因此在实际商业应用中，依据行业场景进行数据集建构并非一个短期工作，数据集建构团队需要充分了解用户的需求，并调研该行业最佳业务人员的相关使用方法和思考习惯，磨合的时间越长，收集的数据越贴近现实场景，训练出来的大模型越能更好地理解指令并执行，从而成为该特定业务场景下的优质模型。

但在医疗、法律等涉及到数据隐私的行业，数据标注的过程会更加困难，无论是数据的采集、还是SFT数据的构造，都会面临数据安全带来的挑战，需要有一个足够可信的第三方来对整个数据处理流程做相应的监管。

在实际应用中，跨行业的数据集构建很难抽象为一个产品，整数智能基于不同用于的对样需求，提供一对一的对接和服务，将不同用户的需求整理成专属的标注文档，并在核验指标上进行量化，将数据标注质量转化为可以量化的数据标准，将复杂的人与人之间的沟通理解对齐为可以量化的数据标准，从而高效触达用户理想的数据集构想。

在当前的商用领域，数据壁垒在每一个垂类领域都是存在并将长期存在的现象。在这一环境中，用户数据和不断实时更新的数据都是非常宝贵的财富。即便如此，业界也在不断探索人工智能领域的民主化进程。整数智能参与开发的开源大语言模型MAP-NEO就是推动高质量大语言模型开源、促进大模型与人工智能技术民主化、助力科研领域发展的重要探索与成功实践。

智驾探索

在数据采集的过程中，最为复杂的环节是资质和标定，这关系到各个传感器的布局、互联，以及标定精度上的取舍。对采集数据的标定也有不同的策略选择，需要标注方通过方案对数据标定策略进行约束和统一，判断哪些数据在当前应用场景下具有最高的标注价值。在下半年即将发布的开源大模型的训练数据集的选择和建构过程中，整数智能将会提取采集数据的主干特征，这些特征在采集数据中会表现为一些向量。在对数据的采集和分析过程中，整数智能的处理方式是先对这些向量进行聚类，并以簇的方式对数据进行大规模的采样。以这样的方式采集到的数据，一簇中的大部分数据只需要标注3-5帧，模型就会有很好地表现。通过对具有代表性的帧进行预标注的方式进行数据生产，在智驾模型的训练过程中，只需要对已经审核过的数据进行调整，即可适用于大部分的智驾场景。在数据集构建的过程中，整数智能团队也注意到了上述流程可能带来的场景局限，如果有现有数据无法很好应对的案例，则需要在剩下尚未被标注的采集数据中进行Data Mining，或者进一步判断是否要对特定场景下的数据进行采集，这时候就可以为数据采集设计一个trigger，只有达到满足这一特殊场景需求的阈值，才对该场景下的数据进行采集。如此，数据集既能涵盖高效低成本地进行绝大部分常见自驾场景，又能囊括驾驶过程中可能出现的特殊情况。

整数智能在基于主观性的、多元化的多种行业垂类中致力于更加专业的定制化服务，同时不断将生产和服务经验复用到人工智能技术探索的过程中，不断加深、拓宽高质量数据集，并用创新性、综合性的思路进行多方尝试，不断为业界发展提供更具实用性的高效产品与专业服务。

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机创新技术研究院，致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员，其提供的智能数据工程平台（MooreData Platform）与数据集构建服务（ACE Service），满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。