5 种技术,可用于系统中的大数据模型

文章目录

  • 一、说明
  • 二、第一种:批量大小
  • 三、第二种:主动学习
  • 四、第三种:增加代币数量
  • 五、第四种: 稀疏激活
  • 六、第五种:过滤器和更简单的模型
  • 后记

一、说明

以下是本文重要观点的摘要。阅读它以获取更多详细信息/获取原始源链接。很多 AI 人都想构建像 GPT 4 这样的大型 AI 模型。让我们来谈谈一些技术,这些技术可以让您在不崩溃的情况下扩展您的模型。这些技术将使您能够扩展 AI 模型,在不显着增加成本的情况下提高系统的表达能力

在这里插入图片描述

这张图片由我在这里介绍的 Pathways 系统提供

二、第一种:批量大小

增加批处理大小可以减少训练时间和成本,但可能会影响泛化。人工智能研究人员已经清楚地注意到,增加批量大小会扰乱你的准确性和泛化。对于大批量训练的低泛化,甚至有一个众所周知的术语——泛化差距。关于那个——这是一个神话。 它确实存在,如果你增加批处理大小而不做其他可以补偿的事情。
在这里插入图片描述

如果您只是增加批量大小而不更改任何其他内容,您的模型将卡在更尖锐的最小值中。这就是泛化差距背后的原因,这在论文《深度学习的大批量训练:泛化差距和尖锐最小值》中得到了证明。
这种权衡可以通过“幽灵批量归一化”等技术来缓解,正如论文“训练时间更长,泛化更好:缩小神经网络大批量训练中的泛化差距”中所建议的那样。
在这里插入图片描述

还有其他技术可以克服这一限制。所有这些都将使您能够最大限度地节省大批量产品的成本,而不会错过性能。

三、第二种:主动学习

这里有一个非常简单的想法 - 如果你有一个预训练的模型,那么有些数据点更容易建模,而另一些数据点则更难建模。较难处理的数据点为您的模型提供了更多潜在信息。因此,将训练重点放在忽略模型认为容易的数据点上是有意义的。如果埃尔林·哈兰德(Erling Haaland)想从“联赛2”球员毕业,那么他最好与困难的对手一起训练,而不是我。

一个很好的实现是 Meta 的“超越神经缩放定律:通过数据修剪击败幂律缩放”。

广泛观察到的神经缩放定律,其中误差会随着训练集大小、模型大小或两者的幂而下降,这推动了深度学习的性能大幅提高。然而,仅通过扩展进行这些改进就需要相当大的计算和能源成本。在这里,我们重点关注误差随数据集大小的缩放,并展示了在理论和实践中,如果我们能够访问高质量的数据修剪指标,我们可以如何突破幂律缩放并将其简化为指数缩放,该指标对应丢弃训练示例的顺序进行排序,以实现任何修剪后的数据集大小。然后,我们用修剪后的数据集大小实证测试了这种新的指数缩放预测,并且确实在 CIFAR-10、SVHN 和 ImageNet 上训练的 ResNets 上观察到比幂律缩放性能更好的结果。鉴于寻找高质量修剪指标的重要性,我们在 ImageNet 上对 10 种不同的数据修剪指标进行了首次大规模基准测试研究。我们发现大多数现有的高性能指标都无法扩展到 ImageNet,而最好的指标是计算密集型的,并且需要为每张图像添加标签。因此,我们开发了一种新的简单、廉价且可扩展的自监督修剪指标,该指标的性能与最佳监督指标相当。总的来说,我们的研究表明,发现良好的数据修剪指标可能会为大幅改进神经缩放定律提供一条可行的途径,从而降低现代深度学习的资源成本。

四、第三种:增加代币数量

Deepmind 的论文“训练计算-最优大型语言模型”的研究强调了平衡语言模型中参数数量和训练令牌数量的重要性,以更低的成本实现更好的性能。如果你喜欢LLM,强烈建议你阅读这篇论文,因为它是世代相传的。
在这里插入图片描述

五、第四种: 稀疏激活

稀疏权重激活训练 (SWAT) 等算法可以通过仅激活神经网络的一部分来显着减少训练和推理期间的计算开销。5/7 必须知道想法。让我们来谈谈它。

回想一下神经网络的工作原理。当我们训练它们时,输入流经所有神经元,包括向前和向后传递。这就是为什么向神经网络添加更多参数会成倍增加成本的原因。

在我们的网络中添加更多的神经元允许我们的模型从更复杂的数据(如来自多个任务的数据和来自多个感官的数据)中学习。但是,这会增加大量计算开销。

对于 ImageNet 上的 ResNet-50,SWAT 将训练期间的总浮点运算 (FLOPS) 减少了 80%,从而在代表新兴平台的模拟稀疏学习加速器上运行时,训练速度提高了 3.3×而验证精度仅降低 1.63%。此外,SWAT 在向后传递期间将内存占用量减少了 23% 到 50%,对于权重减少了 50% 到 90%。

稀疏激活允许两全其美的方案。添加大量参数可以让我们的模型有效地学习更多任务(并建立更深层次的联系)。稀疏激活允许您仅使用网络的一部分,从而减少推理。这使得网络可以学习并擅长多项任务,而不会花费太高的成本。

六、第五种:过滤器和更简单的模型

与其仅仅依赖大型模型,不如使用更简单的模型或过滤器来处理大多数任务,将大型模型保留给复杂的边缘情况。你会惊讶于你可以用正则表达式、规则和一些数学完成多少。

通过结合这些策略,我们可以释放大型人工智能模型的潜力,同时最大限度地降低其对环境的影响和计算成本。正如亚马逊云科技所指出的,“在深度学习应用程序中,推理占总运营成本的 90%”,这使得这些优化对于广泛采用至关重要。

再一次,要了解有关这些技术的更多信息,请阅读以下内容-

如何高效构建 ChatGPT 等大型 AI 模型
可用于在系统中使用大型数据模型而不会破坏系统的技术

后记

感谢您抽出宝贵时间。与往常一样,如果您有兴趣与我合作或查看我的其他作品,我的链接将位于此电子邮件/帖子的末尾。如果你在这篇文章中发现了价值,我将不胜感激你与更多的人分享。正是像您这样的口碑推荐帮助我成长。
我花了很多精力来创作信息丰富、有用且不受不当影响的作品。如果您想支持我的写作,请考虑成为本通讯的付费订阅者。这样做可以帮助我投入更多的精力进行写作/研究,接触更多的人,并支持我严重的巧克力牛奶成瘾。帮助我每周向超过 100K 读者宣传 AI 研究和工程中最重要的思想。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/701045.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在欧拉系统中搭建万里数据库MGR集群(图文详解)

在信创和国产化的大趋势下,将各个中间件进行国产化替换是当前非常重要的任务之一。下面将介绍如何在国产化欧拉系统中安装国产万里数据库。 0.MGR简介 MGR(MySQL Group Replication):是MySQL官方提供的一种高可用性和容错性解决…

塔勒布作品集合风险共担来应对不确定性、风险、随机性的局限性

Nassim Nicholas Taleb 是一位著名的风险分析学者和作家,他的主要作品被合称为“Incerto”不确定性系列。这些书籍虽然可以独立阅读,但它们在主题和思想上紧密相连,共同探讨了不确定性、风险、随机性和人类在应对这些方面的局限性。 以下是 …

修改注册表默认端口号;telnet端口号失败、不通、没反应;访问另一机器端口不通

背景:在多集群项目中,发现访问其他机器不通。遂使用telnet命令试试,确实端口不通。也查看了防火墙策略等,最后尝试了修改注册表默认端口号。这样端口可通了。但并未实际解决问题,在实际项目中需要确认一下你实际项目中…

Keil MDK 下载安装相对应CPU的Software Packs

要下载MDK ARM的Software Packs,您可以按照以下步骤进行,这些步骤结合了参考文章中的信息并进行了适当的归纳和整理: 1. 访问Keil官网 打开浏览器,访问Keil的官方网站:www.keil.arm.com。 2. 进入Software Packs下载…

解析 Spring 框架中的三种 BeanName 生成策略

在 Spring 框架中,定义 Bean 时不一定需要指定名称,Spring 会智能生成默认名称。本文将介绍 Spring 的三种 BeanName 生成器,包括在 XML 配置、Java 注解和组件扫描中使用的情况,并解释它们如何自动创建和管理 Bean 名称。 1. Be…

STM32硬件接口I2C应用(基于MP6050)

目录 概述 1 STM32Cube控制配置I2C 1.1 I2C参数配置 1.2 使用STM32Cube产生工程 2 HAL库函数介绍 2.1 初始化函数 2.2 写数据函数 2.3 读数据函数 3 认识MP6050 3.1 MP6050功能介绍 3.2 加速计测量寄存器 ​编辑3.3 温度计量寄存器 3.4 陀螺仪测量寄存器 4 MP60…

WindTerm使用SSH密钥连接阿里云实例,服务器设置SSH密钥登录

安装Windterm 地址https://github.com/kingToolbox/WindTerm/releases 下载完放到文件夹就可以打开 阿里云开启密钥对 打开阿里云ecs控制台 https://ecs.console.aliyun.com/keyPair/region/cn-wulanchabu 网络与安全->密钥对,创建密钥对,创建成…

6.11 作业

以下是一个简单的比喻,将多态概念与生活中的实际情况相联系: 比喻:动物园的讲解员和动物表演 想象一下你去了一家动物园,看到了许多不同种类的动物,如狮子、大象、猴子等。现在,动物园里有一位讲解员&…

OA协同办公系统 iWebPDF插件安装

1、下载压缩文件 iweboffice,并进行解压 链接:https://pan.baidu.com/s/1GQd7000PTZ771ifL5KEflg 提取码:hb56 2、安装iWenpdf2018.exe 3、安装金格中间件外部应用 4、测试了谷歌、360安全,发现安装插件后,只有360极…

10秒变鬼短视频:四川鑫悦里文化传媒有限公司

10秒变鬼短视频:创意与惊悚的完美融合 在短视频的世界里,创新与独特性 节奏、巧妙的剪辑和惊悚的氛围,成为了许多观众喜爱的对象。四川鑫悦里文化传媒有限公司将探讨“10秒变鬼”短视频的创作技巧、受众心理以及其对短视频行业的启示。 一…

【ubuntu22.04~mysql-MHA-mycat】

ubuntu22.04~mysql-MHA-mycat 前言一、安装指定版本mysql-server(8.0.23)1、安装mysql2、启用修改mysql配置1、安装3、修改权限3.1、用户密码存放位置,3.2、创建用户root@%4、mysql配置文件my.cnf修改1、主节点my.cnf2、slave1~my.cnf修改项3、slave2~my.cnf修改项5、重启mys…

我的网络安全之路——一场诗意的邂逅

文章来源|MS08067 安全实验室 本文作者:tuooo 我的网络安全之路 一场诗意的邂逅 童年的星光中,我仰望着璀璨的荧屏,心怀对未知机器世界的浩瀚与好奇。那时的我,每每想到各种游戏的破解版本与工具,便会被技术…

SpringBoot+layui实现商品打标

标题 下拉框组件效果图代码实现前端界面产品打标页面代码 后端代码controllerservice ,serviceImplmappermapper.xmlentity 数据库表 下拉框组件 xm-select 效果图 代码实现 前端界面 <script type"text/html" id"stockTags"><div><div&…

助力草莓智能自动化采摘,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建果园种植采摘场景下草莓成熟度智能检测识别系统

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;技术已经渗透到我们生活的方方面面&#xff0c;从智能家居到自动驾驶&#xff0c;再到医疗健康&#xff0c;其影响力无处不在。然而&#xff0c;当我们把目光转向中国的农业领域时&#xff0c;一个令人惊讶的…

如何优雅的实现Excel导入通用处理流程

目录 1.业务背景2.业务导入流程3.流程优化3.1 模板模式3.1.1 导入处理器接口ImportProcessor3.1.2 抽象父类 AbstractImportProcessor3.1.3 子类实现 ImportDemoProcessor 3.2 工厂模式3.2.1 标识子类的枚举ImportTypeEnum3.2.2 工厂类ProcessorHolder3.2.3 工厂类的调用 4. 特…

openh264 编码器源码分析:主体框架

openh264 OpenH264 是一个开源的 H.264 编码解码库&#xff0c;专为实时应用如 WebRTC 设计。OpenH264 编码器因其高效性能、广泛的操作系统和架构支持以及灵活的编码参数设置&#xff0c;成为许多开发者在需要 H.264 编码解码解决方案时的理想选择。关于其介绍可以参考&#…

express+宝塔实现文件上传服务

文章目录 服务器部分开启存放文件的端口配置nginx该端口入口手动在/www/wwwroot/file目录下存放一张图片进行访问 express接口部分代码测试 服务器部分 开启存放文件的端口 我这里以83为例 先到对应的服务商开启端口&#xff0c;比如我这里是阿里云 测试&#xff0c;比如这里…

大模型基础——从零实现一个Transformer(3)

大模型基础——从零实现一个Transformer(1)-CSDN博客 一、前言 之前两篇文章已经讲了Transformer的Embedding,Tokenizer,Attention,Position Encoding, 本文我们继续了解Transformer中剩下的其他组件. 二、归一化 2.1 Layer Normalization layerNorm是针对序列数据提出的一种…

如何掌握多门编程语言?

我的答案是&#xff1a;掌握学习新编程语言的能力。 授之以鱼不如授之以渔 对于一个编程老手来说&#xff0c;学习新的编程语言应该很容易。他们只需要一个周末甚至是几个小时就可以开始用新学的编程语言写代码了。优秀的程序员可以为了完成某个任务使用任何一门编程语言。毕…

UE5 Sequencer 使用指导 - 学习笔记

https://www.bilibili.com/video/BV1jG411L7r7/?spm_id_from333.337.search-card.all.click&vd_source707ec8983cc32e6e065d5496a7f79ee6 Sequencer 01 1.1 调整视口 调整窗口数量 调整视口类型为Cinematic视口 视口显示网格&#xff0c;或者条件参考线 1.2 关卡动画与…