OpenAI曾转录100万小时视频数据,训练GPT-4

4月7日,纽约时报在官网发布了一篇名为《科技巨头如何挖空心思,为AI收集数据》的技术文章。

纽约时报表示,OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题,便开发了知名开源语音识别模型Whisper。

随后在OpenAI副总裁Greg Brockman的带领下,从视频平台YT、有声播客/读物等转录了超过100万小时的视频数据,然后转化成文本数据用于训练GPT-4

虽然这一举措游走在法律的边缘处于灰色地带,但也直接反映出了大模型厂商对于训练数据的饥渴程度。

图片

纽约时报指出,不只是OpenAI,谷歌、Meta等科技巨头因为想搜集高质量训练数据而修改隐私数据条款,来避免版权法的制裁

例如,Meta为了追赶OpenAI、微软,使用了互联网上几乎所有公开的英语书籍、散文、诗歌和新闻文章等内容。

甚至想直接买下一家大型出版社,来获取更高质量的有版权、付费数据。不过没有人敢轻易相信Meta的数据隐私条例。

这是因为2018年的“剑桥分析丑闻”让Meta的信誉陷入低谷(那时的名字是Facebook)。

该事件是,一家英国剑桥分析公司通过一款心理测试程序,非法获取了大约8700万Facebook用户的个人隐私数据,包括未经用户明确同意的信息。

图片

用户在参与测试时,不仅自己的数据被收集,就连Facebook好友的信息也被抓取。该丑闻爆发后,Facebook面临了前所未有的审查,该公司的数据隐私政策和管理不当受到严重处罚。

最后,以扎克伯格出面道歉、参加听证会才收场。

高质量数据,是生成式AI领域的“黄金”

当你向ChatGPT、Gemini、Claude等提问获得文本答案时,心里是否会想过,这种内容的写法好像在哪里见过?

居然可以轻松写出古龙、金庸、莫言、莎士比亚、泰戈尔、芥川龙之介、夏目漱石等国内外知名作家风格的内容。

没错,大模型最擅长的便是抄袭然后二次创新,但整体框架、叙述方法还是以模仿为基石

如果只用一句大白话来解释大模型的原理——通过海量预训练数据让大模型学会人类的写作技巧和习惯(视频、音频、图片架构会更复杂一些,但基本同理),然后进行排列组合、预测生成全新的内容(大模型的文本提示,相当于搜索引擎的关键字)。

所以,相比几千亿甚至上万亿的参数,在架构、算法差不多的情况下,训练数据对于大模型更重要。微软、Stability AI发布的Orca 2、Stable LM 2等模型也充分证明了——通过高质量数据训练的小参数模型,性能可以强过大参数模型

就像上面的作家举例一样,A厂商的模型学习了夏目漱石的写作数据,而B没有,两家又都是基于Transformer架构,明显A的写作能力要大于B。

也可以把训练数据看成“内功心法”,当两位剑客的招式几乎差不多时,在关键时刻比拼的就是谁的内功高,谁便能技高一筹。

此外,为了获取高质量数据,2023年7月5日,谷歌 修改了数据隐私条款,将会抓取用户公开或来自其他公共来源的数据,用于训练Gemini(当时用名Bard)、谷歌翻译和云AI等产品。

图片

但好景不长,在公布消息的15天后,谷歌就接到了美国克拉克森律师事务所的起诉。在这份长达90页的诉讼书中,指控谷歌从网络秘密窃取大量数据来训练其AI产品。指控其疏忽、侵犯隐私、盗窃、侵犯版权以及从非法获取的个人数据中获利。

谷歌为了获取高质量数据铤而走险,可见数据对于大模型的重要性。

合成数据正成为主流

4月2日,华尔街日报在官网发布了一篇名为《对于大量消耗数据的AI企业来说,互联网太小了》的内容。

华尔街日报指出,对于大模型厂商来说互联网那点数据,就像一口被挖干的油井根本不够用

尤其是对于训练视频、音频、图像这些比文本更复杂的模型,就像一个“数据黑洞”可以无限吸收各种数据。

图片

但常在河边走哪有不湿鞋的事,各家科技巨头当然也清楚,游走在灰色地带只是无奈之举。所以,他们想了一个新办法使用合成数据。

合成数据是通过算法、机器学习模型自动合成的“虚拟数据”,以模拟真实世界数据的统计特性。基本上也是以模仿为主,但在法律和应用场景等方面有很多优势

良好的隐私保护,合成数据可以在不暴露个人或敏感信息的情况下生成数据,这对于遵守GDPR或HIPAA等隐私法规非常重要。

无限数据源,理论上,可以生成无限量的合成数据,这对于需要大量数据但现实世界数据不足以支持的场景非常有用。

控制数据分布,可以精确控制合成数据的分布,能定制数据以探索特定的情况或增强模型在特定任务上的性能。

成本低,收集和标注大量真实世界数据比较贵,而生成合成数据的成本通常较低,主要由AI自动完成。

但合成数据也并非完美无缺,最致命的缺点便是过度拟合:如果合成数据过于简化或未能捕捉到真实数据的关键特征、表示,用于训练AI模型可能会过度拟合输出的内容同质化且繁重无用。

在合成数据应用方面,OpenAI在今年2月15日重磅发布的视频模型Sora,很多技术大咖就分析,Sora能生成如此高清的视频和时长,可能使用了虚幻引擎5生成的合成数据。

事实上,根据内测用户发布Sora生成的视频,然后与虚幻引擎5的示例视频进行了多维度对比,大概率是使用了合成的视频数据来训练Sora。

所以,使用合成数据训练AI模型,将成为未来主要趋势之一。

本文素材来源纽约时报、维基百科、谷歌官网、Meta官网、theverge官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/530029.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows完全卸载MySQL后再下载安装(附安装包)

目录 友情提醒第一章:如何完全卸载干净mysql教程(三个步骤完全卸载)1)步骤一:卸载程序2)步骤二:删除文件3)步骤三:删除注册表信息 第二章:下载软件两种方式1&…

langchain LCEL,prompt模块,outputparse输出模块

目录 基本代码 prompt模块 prompt模版控制长度 outputparse格式化输出 LangChain表达式语言,或者LCEL,是一种声明式的方式,可以轻松地将链条组合在一起 langchian 可以使用 通义千问,我们用通义千问,用法也要申请…

Java语言实现文件分割与合并

一: 题目: 写一个方法,将feige.exe文件分割为每份1MB大小的若干份(最后一份可以不满1MB), 存储在一个temp的文件夹中(每份文件名自己定义,例如1.temp 2.temp), 然后再写一个方法,将temp文件夹中的若干份合并为一个文件fg.exe 代码: main…

FreeGPT3.5 开源软件

GPT-3.5不需要付费,也不需要注册用户,可以直接使用了,官方彻底开放了API接口。 该API政策一放开,GitHub很快就已经出现了一个开源项目FreeGPT35,可以自动生成key调用GPT3.5的API接口,再也用不着注册账号和申…

「51媒体」中小初创企业如何做好媒体宣传?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 中小初创企业在做媒体宣传时,由于通常资源有限,需要更加精明地使用外部资源来提升品牌知名度和业务成长。利用专业的媒体服务商可以是一个非常有效的方法。 明确目…

Android OOM问题定位、内存优化

一、常用工具: 1、LeakCanary val refWatcher: RefWatcher? TestApp.getRefWatcher(activity) refWatcher?.watch(activity);//检测是否有泄露,即触发GC回收,看activity是否被回收,没有被回收就是泄露了。 二、常见的几种内…

CSS aspect-ratio属性设置元素宽高比

aspect-ratio 是CSS的一个属性&#xff0c;用于设置元素的期望宽高比。它设置确保元素保持特定的比例&#xff0c;不受其内容或容器大小的影响。 语法&#xff1a; aspect-ratio: <ratio>;其中 <ratio> 是一个由斜杠&#xff08;/&#xff09;分隔的两个数字&…

【机器学习】一文掌握机器学习十大分类算法(上)。

十大分类算法 1、引言2、分类算法总结2.1 逻辑回归2.1.1 核心原理2.1.2 算法公式2.1.3 代码实例 2.2 决策树2.2.1 核心原理2.2. 代码实例 2.3 随机森林2.3.1 核心原理2.3.2 代码实例 2.4 支持向量机2.4.1 核心原理2.4.2 算法公式2.4.3 代码实例 2.5 朴素贝叶斯2.5.1 核心原理2.…

CPU问题排查

经常发现生产环境CPU运行很高&#xff0c;我们想知道到底是什么代码这么消耗CPU TOP命令 此时我们经常使用top来找到 CPU 使用率比较高的一些线程 容器中的docker 备注&#xff1a; 如果是docker 中的top命令。需要关注&#xff0c;一般来说不需要&#xff0c;挂载内容的多…

SQL注入sqli_libs靶场第一题

第一题 联合查询 1&#xff09;思路&#xff1a; 有回显值 1.判断有无注入点 2.猜解列名数量 3.判断回显点 4.利用注入点进行信息收集 爆用户权限&#xff0c;爆库&#xff0c;爆版本号 爆表&#xff0c;爆列&#xff0c;爆账号密码 2&#xff09;解题过程&#xff1…

云安全在金融领域的作用是什么?

云安全在金融领域发挥着至关重要的作用&#xff0c;使金融机构能够保护敏感数据、遵守监管要求并推动创新。通过实施强有力的安全措施、利用先进技术并对新出现的威胁保持警惕&#xff0c;金融机构可以保护其数字资产并维持客户的信任。 金融机构面临的挑战 1.缺乏全网数据支撑…

Django交易商场

Hello&#xff0c;我是小恒不会java 最近学习django&#xff0c;写了一个demo,学到了不少东西。 我在GitHub上开源了&#xff0c;提示‘自行查看代码&#xff0c;维护&#xff0c;运行’。 最近有事&#xff0c;先发布代码了&#xff0c;我就随缘维护更新吧 介绍&#xff1a; 定…

spikingjelly训练自己的网络---量化 --测试

第二个 但是我发现&#xff0c;都要反量化&#xff0c;因为pytorch是只能支持浮点数的。 https://blog.csdn.net/lai_cheng/article/details/118961420 Pytorch的量化大致分为三种&#xff1a;模型训练完毕后动态量化、模型训练完毕后静态量化、模型训练中开启量化&#xff0c;…

苍穹外卖11(Apache ECharts前端统计,营业额统计,用户统计,订单统计,销量排名Top10)

目录 一、Apache ECharts【前端】 1. 介绍 2. 入门案例 二、营业额统计 1. 需求分析和设计 1 产品原型 2 业务规则 3 接口设计 2. 代码开发 3. 功能测试 三、用户统计 1. 需求分析和设计 1 产品原型 2 业务规则 3 接口设计 2. 代码开发 3. 功能测试 四、订单统…

MacOS初识SIP——解决快捷指令sh脚本报错Operation not permitted

前言 因为一些原因&#xff0c;设计了一套快捷指令&#xff0c;中间涉及到一个sh脚本的运行&#xff0c;通过快捷指令运行时就会报错&#xff1a;operation not permitted 奇怪的是在快捷指令窗口下运行一切正常&#xff0c;但是从其他地方直接调用&#xff0c;例如通过Comma…

网络安全:重要性与应对措施

1. 网络安全的重要性 随着互联网的普及和信息技术的快速发展&#xff0c;网络安全问题已经变得日益突出。网络攻击者可以通过各种手段窃取个人信息、破坏系统、传播病毒等&#xff0c;给个人和社会带来巨大的损失。因此&#xff0c;网络安全已经成为信息化时代的重要问题之一。…

上门服务小程序|上门服务系统|上门服务软件开发流程

在如今快节奏的生活中&#xff0c;上门服务小程序的需求越来越多。它们向用户提供了方便、高效的服务方式&#xff0c;解决了传统服务行业中的很多痛点。如果你也想开发一个上门服务小程序&#xff0c;以下是开发流程和需要注意的事项。 1、确定需求&#xff1a;在开始开发之前…

SCI一区 | Matlab实现OOA-TCN-BiGRU-Attention鱼鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现OOA-TCN-BiGRU-Attention鱼鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现OOA-TCN-BiGRU-Attention鱼鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

如何将h5网页打包成iOS苹果IPA文件

哈喽&#xff0c;大家好呀&#xff0c;淼淼又来和大家见面啦&#xff0c;最近有很多小伙伴都被难住了&#xff0c;是什么问题给他们都难住了呢&#xff0c;许多小伙伴都说想要把h5网页打包成iOS苹果IPA文件&#xff0c;但是却不知道具体怎么操作&#xff0c;是怎么样的一个流程…

蓝桥杯每日一题(背包dp,线性dp)

//3382 整数拆分 将 1,2,4,8看成一个一个的物品&#xff0c;以完全背包的形式放入。 一维形式&#xff1a;f]0]1; #include<bits/stdc.h> using namespace std; //3382整数拆分 const int N1e610, M5e510; int mod1e9; int f[N],n; int main() {cin>>n;//转化为完…