人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

在这里插入图片描述像ChatGPT这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上写下和分享的数万亿字。

Epoch AI研究集团发布的一项新研究预计,科技公司将在大约十年之交——2026年至2032年之间的某个时候——耗尽人工智能语言模型公开可用的训练数据。

该研究的作者之一塔梅·贝西罗格鲁(Tamay Besiroglu)将其与耗尽有限自然资源的“字面上的淘金热”相提并论,他表示,一旦人工智能领域耗尽了人类生成的文字储备,它可能会面临保持目前发展速度的挑战。

在短期内,像chatgpt制造商OpenAI和谷歌这样的科技公司正在竞相获得高质量的数据源,有时还会花钱购买它们的人工智能大型语言模型——例如,通过签署协议,利用来自Reddit论坛和新闻媒体的稳定的句子流。

从长期来看,不会有足够多的新博客、新闻文章和社交媒体评论来维持目前的人工智能发展轨迹,这将给企业带来压力,迫使它们利用现在被视为私人的敏感数据——比如电子邮件或短信——或者依赖聊天机器人自己提供的不太可靠的“合成数据”。

Besiroglu说:“这是一个严重的瓶颈。“如果你开始触及数据量的限制,那么你就不能再有效地扩展你的模型了。扩大模型规模可能是扩大其能力和提高产出质量的最重要方式。

”两年前,在ChatGPT首次亮相之前不久,研究人员在一份工作论文中首次做出了他们的预测,预测高质量文本数据将于2026年即将停止。自那以后,很多事情都发生了变化,包括新技术使人工智能研究人员能够更好地利用他们已有的数据,有时还会对同一来源进行多次“过度训练”。

但也有限制,经过进一步的研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。

该团队的最新研究经过同行评审,并将于今年夏天在奥地利维也纳举行的国际机器学习会议上发表。Epoch是一家非营利机构,由总部位于旧金山的Rethink Priorities主办,由有效利他主义的支持者资助。有效利他主义是一个慈善运动,为减轻人工智能最坏的风险投入了大量资金。

Besiroglu说,人工智能研究人员在十多年前就意识到,积极扩展两个关键因素——计算能力和大量互联网数据存储——可以显著提高人工智能系统的性能。

LLM训练数据集正在增长

自2017年以来,用于训练关键机器学习模型的数据集的规模迅速增加。

在这里插入图片描述
根据Epoch的研究,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算量每年增长约4倍。Facebook的母公司Meta平台最近声称,他们即将推出的最大版本的羊驼3模型(尚未发布)已经接受了多达15万亿个代币的训练,每个代币可以代表一个单词的一部分。

但是数据瓶颈到底有多少值得担心,这是有争议的。

“我认为重要的是要记住,我们不一定需要训练越来越大的模型,”多伦多大学(University of Toronto)计算机工程助理教授、非营利组织矢量人工智能研究所(Vector Institute for Artificial Intelligence)研究员尼古拉斯·佩珀诺特(Nicolas Papernot)说。

Papernot没有参与Epoch的研究,他说,构建更熟练的人工智能系统也可以来自于更专门于特定任务的训练模型。但他担心,在生成式人工智能系统正在产生的相同输出上进行训练,会导致性能下降,被称为“模型崩溃”。

在人工智能生成的数据上进行训练“就像你复印一张纸,然后再复印一份复印件。你丢失了一些信息,”Papernot说。不仅如此,Papernot的研究还发现,它可以进一步编码已经融入信息生态系统的错误、偏见和不公平。

如果真正的人工句子仍然是一个关键的人工智能数据源,那么那些最受欢迎的数据库——像Reddit和维基百科这样的网站,以及新闻和图书出版商——的管理者们就不得不认真思考它们是如何被使用的。

运营维基百科的维基媒体基金会(Wikimedia Foundation)首席产品和技术官赛琳娜•德克尔曼(Selena Deckelmann)开玩笑说:“也许你不会砍掉每座山的山顶。”“现在,我们正在就人类创造的数据进行自然资源对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得它有点神奇。”

虽然有些人试图将他们的数据与人工智能训练隔离开来——通常是在这些数据已经被无偿获取之后——但维基百科对人工智能公司如何使用其志愿者撰写的条目几乎没有限制。尽管如此,Deckelmann表示,她希望继续有激励人们继续贡献,特别是在大量廉价和自动生成的“垃圾内容”开始污染互联网的情况下。

她说,人工智能公司应该“关注人类生成的内容如何继续存在,以及如何继续被访问”。

Epoch的研究表明,从人工智能开发者的角度来看,雇佣数百万人来生成人工智能模型所需的文本,“不太可能是”提高技术性能的“经济方式”。

随着OpenAI开始训练下一代GPT大型语言模型,该公司首席执行官萨姆·奥特曼(Sam Altman)上个月在联合国的一次活动上告诉听众,该公司已经在进行“生成大量合成数据”的试验。

“我认为你需要的是高质量的数据。有低质量的合成数据。有低质量的人类数据,”奥特曼说。但他也对过度依赖合成数据而不是其他技术方法来改进人工智能模型持保留态度。

奥特曼说:“如果训练一个模型的最好方法是生成一千万亿的合成数据,然后把它们反馈进去,那就太奇怪了。”“从某种程度上说,这似乎效率低下。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/698668.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring--Bean的作用域,生命周期

Bean的作用域 Bean的作用域有很多种,在Spring Framework中支持6种(其中有四种只有在web环境中才能生效),同时Spring还支持自定义Bean的范围。 Spring Framework中支持的6种范围: 作用域解释singleton每个Spring IoC…

【数学建模】微分方程的数值求解

微分方程的数值求解 一阶差分求解微分方程原理:四阶龙格-库塔方法应用:小船渡河问题: 进阶求二阶微分方程 一阶差分求解微分方程原理: d y d x f ( x n , y n ) \dfrac{dy}{dx}f(x_n,y_n) dxdy​f(xn​,yn​) y n 1 − y n x n 1 − x n f ( x n , y n ) \dfrac{y_{n1}-y_n…

React+TS前台项目实战(一)-- 项目初始化配置及开此系列的初衷

文章目录 前言一、初始化项目二、基础配置1. 项目目录及说明如下2. TS版本使用Craco需注意 总结 前言 前面 后台管理系统实战 系列教程暂时告一段落了,想了解全局各种配置的可自行查看。本次教程将重点介绍React前台项目的实操,关于具体的配置&#xff…

51单片机-数码管显示多个

目录 简介: 一. 简单全亮 二. 控制单个变化 三. 2024 书接上回 51单片机-数码管显示单个 http://t.csdnimg.cn/Ii6x0 简介: 51 单片机作为控制核心,可以与数码管相连接来实现数字的显示。 数码管通常有多个段,通过控制这些段的点亮和熄灭状态&…

弘君资本炒股技巧:银行降准对股票的影响?

银行降准会带动股票市场变得相对活泼起来,假如降准前股价在跌落状态,降准能够起到一定缓冲股价跌落的效果。 什么是降准:降准指的是减少银行在央行的存款准备金率,也便是说银行需求存放于央行的资金份额下降,银行能够…

Tensorflow2.10 完成图像分割任务

前言 图像分割在医学成像、自动驾驶汽车和卫星成像等方面有很多应用,本质其实就是图像像素分类任务,也就是使用深度学习模型为输入图像的每个像素分配一个标签(或类)。 准备 本文的准备如下,使用 pip 安装如下配置&…

动态内存管理<C语言>

导言 在C语言学习阶段,指针、结构体和动态内存管理,是后期学习数据结构的最重要的三大知识模块,也是C语言比较难的知识模块,但是“天下无难事”,只要认真踏实的学习,也能解决,所以下文将介绍动态…

成都石室中学学子游汶鑫展现新时代好少年风采 拾金不昧获表彰

在繁华的都市中,每天都有无数的故事在上演,而其中的一些故事,却以其独特的温暖和正能量,深深打动着我们的心灵。近日,成都石室中学初中学校的一名学生游汶鑫同学,就用他的实际行动,诠释了新时代好少年的风采,展现了中华民族传统美德在当代青少年身上的生动体现。 成都石室中学初…

# Mac下反编译微信小程序获得源码

Mac下反编译微信小程序获得源码 所需工具 mac版微信 最好3.8以上版本node环境wxappUnpacker wxappUnpacker: 小程序反编译(支持分包) 小程序反编译(支持分包) https://gitee.com/ksd/wxappUnpacker 大体步骤 用微信搜索打开对应小程序,为的是把产物文件加载到…

郑州小区火灾防范需重视:可燃气体报警器检测的日常管理与维护

近日,郑州市一小区发生了一起严重的火灾事故,这起事故不仅给遇难者家属带来了巨大悲痛,也再次引发了社会对于小区火灾防范与应急处理的关注。 在对此次事故进行深入分析的同时,我们不得不思考可燃气体报警器在小区火灾检测中的重…

选课清单--数据结构课程设计(十字链表+哈希表实现)

题目如上(九院版,被老师要求选这个题目做,不知道还有没有别的学校是这种题目,都可以相互借鉴hh) 代码写的有冗余,结构体应该有三个,一个学生,一个课程,一个十字链表的结构体,如果公…

如何有效处理服务器后台密码暴露

服务器后台密码的暴露是信息安全领域中的严重事件,它可能引发未经授权的数据访问、恶意软件植入或系统功能滥用等一系列问题。本文将探讨几种处理服务器后台密码暴露的有效策略,包括紧急响应步骤、密码安全增强措施及长期预防机制,并提供实际…

【LeetCode 第 401 场周赛】K秒后第 N 个元素的值

文章目录 1. K秒后第 N 个元素的值🆗 1. K秒后第 N 个元素的值🆗 题目链接🔗 🐧解题思路: 前缀和 小规律🍎 🍎 从上图观察可知,规律一目了然,arr[i] arr[i] 对上一…

【机器学习】基于3D CNN通过CT图像分类预测肺炎

1. 引言 1.1. 研究背景 在医学诊断中,医生通过分析CT影像来预测疾病时,面临一些挑战和局限性: 图像信息的广度与复杂性: CT扫描生成的大量图像对医生来说既是信息的宝库也是处理上的负担。每组CT数据可能包含数百张切片&#xf…

代码随想录算法训练营第36期DAY57

DAY57 今天的好消息&#xff1a;能去华五。 1143最长公共子序列 Code: class Solution {public: int longestCommonSubsequence(string text1, string text2) { vector<vector<int>> dp(text1.size()1,vector<int>(text2.size()1,0)); f…

【PowerDesigner】CDM生成PDM

目录 &#x1f30a;1. PowerDesigner简介 &#x1f30d;1.1 常用模型文件 &#x1f30d;1.2 PowerDesigner使用环境 &#x1f30a;2. CDM生成PDM ​​​​​​​&#x1f30a;3. 研究心得 &#x1f30a;1. PowerDesigner简介 &#x1f30d;1.1 常用模型文件 主要使用Pow…

家具板材ENF级甲醛释放量检测 板材甲醛含量测定

ENF级甲醛释放量检测 ENF级是指甲醛释放量非常低的板材&#xff0c;它代表了无醛添加的最高级别。根据最新的国家标准GB/T 39600-2021&#xff0c;ENF级板材的甲醛释放量不得超过0.025 mg/m。这个标准比欧洲的E1级&#xff08;甲醛释放量≤0.124 mg/m&#xff09;和美国的P2标准…

2024年,计算机相关专业还值得选择

随着2024年高考落幕&#xff0c;数百万高三学生又将面临人生中的重要抉择&#xff1a;选择大学专业。在这个关键节点&#xff0c;计算机相关专业是否仍是“万金油”的选择&#xff1f;在过去很长一段时间里&#xff0c;计算机科学与技术、人工智能、网络安全、软件工程等专业一…

移动端浏览器的扫描二维码实现(vue-qrcode-reader与jsQR方式)

1. 实现功能 类似扫一扫的功能&#xff0c;自动识别到画面中的二维码并进行识别&#xff0c;也可以选择从相册中上传。 2. 涉及到的一些插件介绍 vue-qrcode-reader 一组用于检测和解码二维码的Vue.js组件 jsQR 一个纯粹的javascript二维码阅读库&#xff0c;该库接收原始…

使用 3D 图形 API 在 C# 中将 PLY 转换为 OBJ

OBJ和PLY是一些广泛使用的 3D 文件格式&#xff0c;易于编写和读取。这篇博文演示了如何以编程方式在 C# 中将 PLY 转换为 OBJ。此外&#xff0c;它还介绍了一种用于 3D 文件格式转换的在线3D 转换器。是的&#xff0c;Aspose.3D for .NET为程序员和非程序员提供了此功能来执行…