大模型时代:消失的飞轮

在移动互联网时代,“数据飞轮”效应深入人心:场景催生应用,应用生成数据,继而这些数据反馈优化算法,再反哺应用本身,进入迭代优化的良性循环。

随着生成式人工智能的兴起,许多人认为这一飞轮效应将延续,中国凭借其丰富的应用场景,能够生成大量的数据,进而为模型提供养分,这也被视为中美人工智能竞争中关键的比较优势,推动模型应用的发展显得尤为重要。

然而,要回应这些社会关注的问题,我们必须**从大模型训练对数据利用的新方式着手,逐类分析应用产生的数据对模型训练的贡献,对比与传统推荐系统的异同,才能确认“数据飞轮”是否依然存在,**本文旨在为大模型时代的数据利用和应用发展提供翔实的佐证和清晰的建议。

01、决策式人工智能时代的数据飞轮

提起数据飞轮,人们的第一印象是以搜推系统为代表的决策式人工智能。神经网络技术推动了数据驱动的应用模式,依靠丰富的场景和海量数据积累,以实现个性化和实时性的迭代,让用户有越用越好的体验。

推荐系统在需求侧可以通过获取、学习和分析海量的用户行为数据,判断用户的需求,实现对用户的认知和洞察。用户使用越多,用户行为数据越丰富(包含用户的实时性操作,如浏览、点击等),将这些作为特征输入到模型中,系统对用户个性化、实时性的偏好判断就越精准。

其背后的技术原理,是以大量的用户使用记录、用户画像、商品画像等原始数据为基础,提炼出用户和商品标签等不同维度的信息,进而抽象出特征向量,用向量的空间距离计算出用户和商品的相似度、对内容的偏好度,进行“人-商品/内容”的匹配推荐。基于上述方式,搜推系统呈现出明显的规模效应和自驱效应:越丰富和细致的用户使用数据,就能实现越有效的供需匹配,而且得到数据反馈的算法会越用越准,并不需要人类去干预。

由此,应用数据飞轮的特征可归纳为三条:自我驱动、个性化、实时性。

首先,自我驱动体现在随着应用数据的积累,系统可以通过用户的反馈不断学习和优化,形成“应用数据→优化效果→反哺应用”的闭环。

其次,个性化体现在系统通过积累与特定用户交互的经验,更有效构建用户间的相似性关系,挖掘每个用户潜在感兴趣的对象,提供越来越精准的个性化服务。

再次,实时性体现在对用户的应用数据的实时采集和处理,将这些实时特征转化为输入,系统可以实现动态调整和优化。

来源 / ToB行业头条 (ID:wwwqifu) 作者 / 头条 · 编辑 / 头条

02、生成式人工智能对数据利用**的新模式

1、大模型应用数据的提出

我国在大模型训练中,经常面临高质量训练数据供给不足的问题。对此,我们讨论过公共数据“应开尽开”、社会力量“应试尽试”、版权数据“合理使用”,以及合成数据“应补尽补”,作为训练数据供给不足的新方案。

今天将讨论另一种数据类型:大模型应用数据,即用户在使用大模型过程中产生的数据。根据现阶段的发展情况,可以将应用数据分为对话类和行为类两种。

对话类数据常见于以智能客服为例的企业通用场景,包含用户在应用大模型产品中产生的输入信息、与模型对话交互的记录等。而行为类数据包含人类对模型回答的反馈(点赞或点踩)、点击、浏览、操作记录等。与公众的直觉判断相反,应用数据并不能作为训练语料的直接和主要来源,我们期待的数据飞轮在大模型时代并不存在,而以发展应用来提升模型能力也需要更细致的方案。

2、应用数据与模型能力的关系

○ 2.1 大模型训练所需的语料类型

大模型能力的提升来自于训练阶段的优化,所需的数据根据训练阶段有所不同,其特点可以归纳为“广”、“齐”、“专”。 在预训练阶段需要各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,目的是为了“融汇贯通”以掌握世界规律,提升模型基础能力。

在对齐阶段通过给予大模型有针对性的问答对(典型例题-答案对),以及对模型回答进行打分排序,更好激发模型在相应任务中的能力,让模型知道“怎么说更好”。如果将模型部署于特定场景形成行业大模型,则需要满足行业专业度需求的语料,一方面可应用于预训练以使模型掌握领域知识,另一方面作为对齐阶段的行业语料可以更好激发专业领域的能力。

从规律的学习方式看,大模型对训练数据的需求类型和使用方式都产生了根本性变化,属于一种创造知识增量的创新使用方式。

决策式人工智能的训练数据属于原始数据(Data),是对事物、事件、活动的基本描述和记录(比如用户行为数据),其数量级别十分庞大但价值无法确定。而生成式人工智能的训练语料属于知识类(Knowledge),是人类通过对原始数据进行格式化组织分析形成信息,进而从信息中获得见解所形成的内容。

大模型训练需要知识类语料,并不依赖用户行为数据, 可见在生成式人工智能时代,模型对数据的利用变得更有效率。以工业制造为例,工艺生产中的操作行为或时序数据等非自然语言描述的内容属于原始数据,通常不能直接用于训练。

而将其转化为一条条可读的操作记录等结构化信息,并将多条结构化信息与行业的知识图谱、专家经验相结合,产出成有价值的行业知识(如在什么温度下应该如何操作,好处是什么),才可以用于大模型训练。当然,模型训练所需的语料类型也可能随着技术发展而不断演变。

○ 2.2 应用数据的提炼与转化

对话类的应用数据需要人类加工处理后才能用于模型训练。

大量用户与模型多轮交互问答并不会直接让模型能力得到提升,而需要人类将其中的内容整合并提炼共性,才能形成高质量的可用于持续训练的问答对。行为类的应用数据也不能直接用于模型训练,相反,训练并不依赖大量的行为数据。

从ToB端基于模型开发的行业应用看, 在通用场景中,大量用户对智能客服回答的点赞和点踩,需要人类的统计和汇总才可能转化为适宜强化学习的排序语料。

在专业闭环场景中,用户驾驶装载了完全自动驾驶(FSD)模型的Tesla在道路上行驶,大量的操作记录等行为数据并不会使FSD版本自我迭代和优化,还需要技术人员通过对数据的收集和清洗,提炼出人类驾驶员应对稀有事件(如复杂路况、极端天气、异常行为的人或车辆等)的数据集用于持续训练,才能让模型性能更强大。

从ToC端的应用看,以大模型时代的搜推场景为例,在需求侧已经不再需要数亿的海量点击和浏览等用户行为数据作为训练,而仅仅需要从中找出几百或几千条消费者具有“发现性”的点击 (比如一个经常浏览或购买女装、童鞋品类下商品的消费者,首次对儿童玩具类商品的点击),将这些加工成知识性的微调语料,用于优化出更“好逛”的推荐系统。

由此看出,**即使问答对话是大语言模型所需的一种训练数据,但对话类应用数据,仍要人类提炼后才可能对训练有帮助。而行为类数据本身和大模型训练的基础需求并不匹配,对行为类应用数据的利用,要人类精选出和模型任务相匹配的少部分进行加工处理后,才可能对能力提升有帮助。**从目前发展阶段看,将应用数据提炼转化后用于提升模型性能,在产业中还处于各自探索的阶段,即使如OpenAI等头部公司也并没有完美的成功经验可供借鉴。

○ 2.3 大模型时代并不存在数据飞轮

图片

大模型时代应用数据与模型能力之间并没有自我驱动、个性化、实时性的关系,因此在大模型时代“应用发展→数据积累→模型能力提升”的飞轮并不存在。

一是应用数据对应模型能力提升并不存在“自我驱动”, 而是非常依赖人类的干预,对用户使用数据进行加工提炼,使其在知识层有边际贡献,而这种贡献也还需要在产业实践中积极尝试。

二是应用数据对模型能力提升并不是个性化的,大模型对于应用数据的使用方式并不是直接利用使用者的明细数据或个性化数据,而是需要将语料再提炼成“集合”的特征,才可供模型读取和训练。

比如利用人工进行打标和分组归类,又或是利用合成数据,结合知识图谱、专家经验将明细数据转化成知识。三是没有实时性的特点,通常是在积累一段时间与用户的交互后,才能将应用数据加工成作为可供持续训练的语料,对于模型参数的调整并不是实时的。

3、理性看待应用发展与模型能力提升的关系

虽然大模型时代并不存在应用数据带来的飞轮效应,是否意味着不需要发展模型应用了呢?答案是否定的。通过应用发展带来更可持续的盈利模式,让大模型研发企业积累资金,投入新一轮基础模型的迭代,这种商业逻辑依然成立,且对于我国大模型发展十分重要。

因此,大力发展应用,并不是为了积累大量的数据用于提升模型能力,而是为了建立更健康、更可持续的商业生态。

最后,对于“模型能力提升→应用发展”,该正向反馈是成立的。

目前看,随着通用基础大模型能力的提升,其应用场景已经从社交、消费等ToC应用、扩展到办公、编程、营销等通用ToB应用,以及在融合专业场景核心数据后应用于金融、制造、能源等专业ToB领域。

随着模型能力提升,基于Transformer架构的模型还会以“领域数据+独立模型+专项应用”的形式更多在独立ToB领域中得到应用,比如具身机器人、药物研发、自动驾驶等。

来源 / ToB行业头条 (ID:wwwqifu) 作者 / 头条 · 编辑 / 头条

03、对应用数据和应用发展的思考**

从微观的数据层面,在理解应用数据与模型能力的关系后,我们应该更科学和客观地看待模型应用数据的开发和治理。

从治理侧看,一是对应用数据要在认识上“祛魅”,不要过于神化其价值。 海量的用户使用数据大部分是底层数据,用于训练模型还需要人类加工、提炼成为知识类语料,且最终的效果还存在诸多不确定性。它们对模型自身能力提升并不起决定作用,不存在应用数据的飞轮。

二是对应用数据的提炼和转化,要相信市场的力量。 将应用数据转化成模型训练语料,本质是不同模型厂商结合各自对产业的理解和技术的判断,利用不同方法探索应用数据的最佳利用方式,从而优化自身模型性能的过程。在这种没有成功先例可循、具有专业性和需要试错迭代的领域,基于市场优胜劣汰可以更高效的判断好坏、配置资源。在应用数据的开发侧,要结合模型的应用场景与所需的数据类型,更巧妙地设计软件和硬件。

以具身智能场景为例,“插、拉、拧、拔、推”是机器人的关键动作,由此决定了训练数据需要“力量-空间位置”混合的数据类型。而对相关应用数据的获取可以分为两个阶段:一种是由较低成本方式(传感器生成和采集)获取的,规模大但质量一般的数据用于预训练;另一种是由较高成本方式(人类带外骨骼收集)获取的,数量少但精度高的数据做对齐训练。

从中观的产业视角看模型应用的发展,本质上是模型在不同行业生产Token(模型理解和生成的最小数据单元)**能力不断提升的过程。**正如黄仁勋所说:Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频,可以代表任何具有明确价值的事物。

这种生成式AI的崛起意味着人类可以学习并模拟物理现象,让大模型理解并生成物理世界的各种现象。而模型在应用领域的拓展,就是为越来越多有价值的事物生产Token,无论是蛋白质、基因、天气模式,还是汽车的转向盘控制、机械臂的关节运动等等。

符合Token视角的数据利用模型,需要我们通过新的技术方法和商业模式的设计,把各个领域沉淀的数据更好利用起来,让更多领域知识先以Token的方式被模型学习和理解,进而再由模型生成更多有价值的新Token。

从宏观视角看模型对数据的利用方式,我们发现大模型是数据释放价值的最短路径。

根据经典的DIKW金字塔理论,数据发挥价值的路径是从原始数据(Data-D)形态出发,通过对原始素材类数据进行格式化组织和分析,将其转化为人类可以理解的信息(Information-I),从信息中获得见解进而形成知识(Knowledge-K),再由知识升华为更加抽象的智慧形态(Wisdom-W)。决策式人工智能时代,数据要素发挥价值的路径需要从D逐层到W,而通常在D和I之间的转化就需要耗费大量的中间过程才能完成。

而大模型在训练时的语料就已经以K层为主,输出的内容大多也直接从K层起步,极大缩减了中间的转化过程,最大程度提升了数据的使用效率。可见,数据发挥价值的机制正在随着技术的发展而不断演化。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716780.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot原理篇-bean管理

springboot原理篇-bean管理(二) 我们今天主要学习IOC容器中Bean的其他使用细节,主要学习以下三方面: 如何从IOC容器中手动的获取到bean对象bean的作用域配置管理第三方的bean对象 一、获取Bean 了解即可,默认情况下…

基于Python的花卉识别分类系统【W9】

简介: 基于Python的花卉识别分类系统利用深度学习和计算机视觉技术,能够准确识别和分类各种花卉,如玫瑰、郁金香和向日葵等。这种系统不仅有助于植物学研究和园艺管理,还在生态保护、智能农业和市场销售等领域展现广泛应用前景。随…

可视化大屏搞这样,是对前端开发尊严的巨大挑战。

现在可视化大屏不搞点炫酷的效果和3D交互,出门都不好意思给别人打招呼,作为前端领域的老司机,我感觉尊严受到了巨大挑战,必须迎难而上,hold住他们,老铁们你们觉得呢?

构建高效API接口:五个关键技术要点解析

构建高效API接口是现代软件开发中至关重要的一环。以下是五个关键技术要点,它们可以帮助开发者设计、实现、和维护高性能的API接口: 1. RESTful设计原则和HTTP协议最佳实践 资源定位与可寻址性:为每个资源定义清晰的URL,使用HTT…

买灯必看!护眼台灯是智商税吗?护眼台灯真的有用吗?

随着人们健康意识的日益增强、儿童近视率的大幅度增加,眼睛健康逐渐成为人们关注的焦点。为了减轻长时间用眼带来的疲劳,许多人开始寻求高品质的照明设备来呵护双眼。照明技术的飞速发展,使得现代照明产品能够精准地调整光线亮度、色温和闪烁…

RTSP/Onvif安防监控平台EasyNVR抓包命令tcpdump使用不了,该如何解决?

安防视频监控汇聚EasyNVR智能安防视频监控平台,是基于RTSP/Onvif协议的安防视频平台,可支持将接入的视频流进行全平台、全终端分发,分发的视频流包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式。平台可提供的视频能力包括:…

区间DP——AcWing 282. 石子合并

区间DP 定义 区间 DP 是动态规划的一种特殊形式,主要是在一段区间上进行动态规划计算。 运用情况 通常用于解决涉及在一段区间内进行操作、计算最优值等问题。比如计算一个区间内的最大子段和、最小分割代价等。一些常见的场景包括合并操作、划分操作等在区间上…

华火新能源集成灶评测:创新与品质的融合

在厨房电器的不断推陈出新中,华火新能源集成灶以其独特的魅力进入了人们的视野。今天,我们就来深入评测这款备受关注的产品——华火新能源集成灶 一、华火新能源集成灶的创新与环保 首先,我们先来探讨新能源集成灶的整体表现。华火新能源集成…

如何将扫描的 PDF 转换为 Word

您是否正在寻找一种可靠且轻松的方式将扫描的 PDF 文档转换为可编辑的 Word 文件?要将 PDF 转换为可编辑的 Word 文档,神奇之处在于光学字符识别(OCR)。 使用 PDFgear,您可以无缝地将扫描的 PDF 转换为 Word,无论是在线还是离线。…

【电子实验4】TDA2030功率放大电路

🚩 WRITE IN FRONT 🚩 🔎 介绍:"謓泽"正在路上朝着"攻城狮"方向"前进四" 🔎🏅 荣誉:2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…

【vue3|第8期】深入理解Vue 3 computed计算属性

日期:2024年6月10日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

Aptos Builder Jam 亚洲首站|议程公布,无限畅想 Aptos 生态未来

作为一个新兴的 Layer1 公链,Aptos 自诞生之日起的理想便是 “A Layer 1 for everyone” 当 Web3 深陷熊市阴影之时,Aptos 奋力为开发者找到了全新的技术路径,正有 200 项目正在开发,并且已有大量 DeFi 项目落实部署工作&#xff…

【Kubernetes】k8s 自动伸缩机制—— HPA 部署

一、在K8s中扩缩容分为两种: ●Node层面:对K8s物理节点扩容和缩容,根据业务规模实现物理节点自动扩缩容 ●Pod层面:我们一般会使用Deployment中的Replicas参数,设置多个副本集来保证服务的高可用,但是这是…

【python中的转义字符】

在Python中,除了换行符(\n)和制表符(\t),还有许多其他的转义字符和字符串格式化符号可以使用。以下是一些常见的例子: 1、常见的转义字符 ### 常见的转义字符 1. **换行符**: \n 2. **制表符*…

高创新模型,基于STFT-SWT-双流CNN-SVM的小样本轴承故障诊断方法,MATLAB代码

。前言 现如今,大家为了找创新点发个小论文,也真是煞费苦心!各大博主推出的很多算法层出不穷,各式各样的组合真是看花了眼!但有时也不能为了创新而创新,效果好才是真的好! 本期推出一种《基于ST…

c语言哈夫曼中英文混合编码

一.需求文档 c语言实现哈夫曼编码 1.中文编码 2.英文编码 3.中英文混合编码 4.从文件读取进行编码 5.编码生成编码文件 6.从生成的编码文件进行解码 二.运行截图

洗护用品行业怎么做到数据安全管理?迅软DSE加密软件避免数据泄露

项目背景 公司全研发中心内部专家联合外部专家组织,充分发挥联合研究、探讨技术发展带来的重要性,产品开发、核心技术开发、工艺技术研究和创新,已形成了坚实的研发后盾,已拥有了大量的核心信息数据,为防患于未然&…

程序员画图工具?那必然是你了!!【送源码】

作为一个程序员,画图是必不可少的技巧。当然此画图不是搞艺术,而是画各种架构图、流程图、泳道图以及各种示意图。 平时我不论是记笔记、写技术文章,还是工作中写文档,都需要配上各种各样的示意图。不管是帮助自己更好的掌握知识…

【Netty】nio阻塞非阻塞Selector

阻塞VS非阻塞 阻塞 阻塞模式下,相关方法都会导致线程暂停。 ServerSocketChannel.accept() 会在没有建立连接的时候让线程暂停 SocketChannel.read()会在没有数据的时候让线程暂停。 阻塞的表现就是线程暂停了,暂停期间不会占用CPU,但线程…

1:25万基础电子地图(云南版)

我们在《50幅1:25万基础电子地图(四川版)》一文中,为你分享过四川的50幅基础电子地图。 现在我们再为你分享云南的1:25万基础电子地图,你可以在文末查看该数据的领取方法。 基础电子地图云南版 下载后可以看到该数据…