5 种技术,可用于系统中的大数据模型,而不会使系统崩塌

文章目录

  • 一、说明
  • 二、第一种:批量大小
  • 三、第二种:主动学习
  • 四、第三种:增加代币数量
  • 五、第四种: 稀疏激活
  • 六、第五种:过滤器和更简单的模型
  • 后记

一、说明

以下是本文重要观点的摘要。阅读它以获取更多详细信息/获取原始源链接。很多 AI 人都想构建像 GPT 4 这样的大型 AI 模型。让我们来谈谈一些技术,这些技术可以让您在不崩溃的情况下扩展您的模型。这些技术将使您能够扩展 AI 模型,在不显着增加成本的情况下提高系统的表达能力

在这里插入图片描述

这张图片由我在这里介绍的 Pathways 系统提供

二、第一种:批量大小

增加批处理大小可以减少训练时间和成本,但可能会影响泛化。人工智能研究人员已经清楚地注意到,增加批量大小会扰乱你的准确性和泛化。对于大批量训练的低泛化,甚至有一个众所周知的术语——泛化差距。关于那个——这是一个神话。 它确实存在,如果你增加批处理大小而不做其他事情。
在这里插入图片描述

如果您只是增加批量大小而不更改任何其他内容,您的模型将卡在更尖锐的最小值中。这就是泛化差距背后的原因,这在论文《深度学习的大批量训练:泛化差距和尖锐最小值》中得到了证明。
这种权衡可以通过“幽灵批量归一化”等技术来缓解,正如论文“训练时间更长,泛化更好:缩小神经网络大批量训练中的泛化差距”中所建议的那样。
在这里插入图片描述

还有其他技术可以克服这一限制。所有这些都将使您能够最大限度地节省大批量产品的成本,而不会错过性能。

三、第二种:主动学习

这里有一个非常简单的想法 - 如果你有一个预训练的模型,那么有些数据点更容易建模,而另一些数据点则更难建模。较难处理的数据点为您的模型提供了更多潜在信息。因此,将训练重点放在忽略模型认为容易的数据点上是有意义的。如果埃尔林·哈兰德(Erling Haaland)想从“联赛2”球员毕业,那么他最好与困难的对手一起训练,而不是我。

一个很好的实现是 Meta 的“超越神经缩放定律:通过数据修剪击败幂律缩放”。

广泛观察到的神经缩放定律,其中误差会随着训练集大小、模型大小或两者的幂而下降,这推动了深度学习的性能大幅提高。然而,仅通过扩展进行这些改进就需要相当大的计算和能源成本。在这里,我们重点关注误差随数据集大小的缩放,并展示了在理论和实践中,如果我们能够访问高质量的数据修剪指标,我们可以如何突破幂律缩放并将其简化为指数缩放,该指标对应丢弃训练示例的顺序进行排序,以实现任何修剪后的数据集大小。然后,我们用修剪后的数据集大小实证测试了这种新的指数缩放预测,并且确实在 CIFAR-10、SVHN 和 ImageNet 上训练的 ResNets 上观察到比幂律缩放性能更好的结果。鉴于寻找高质量修剪指标的重要性,我们在 ImageNet 上对 10 种不同的数据修剪指标进行了首次大规模基准测试研究。我们发现大多数现有的高性能指标都无法扩展到 ImageNet,而最好的指标是计算密集型的,并且需要为每张图像添加标签。因此,我们开发了一种新的简单、廉价且可扩展的自监督修剪指标,该指标的性能与最佳监督指标相当。总的来说,我们的研究表明,发现良好的数据修剪指标可能会为大幅改进神经缩放定律提供一条可行的途径,从而降低现代深度学习的资源成本。

四、第三种:增加代币数量

Deepmind 的论文“训练计算-最优大型语言模型”的研究强调了平衡语言模型中参数数量和训练令牌数量的重要性,以更低的成本实现更好的性能。如果你喜欢LLM,强烈建议你阅读这篇论文,因为它是世代相传的。
在这里插入图片描述

五、第四种: 稀疏激活

稀疏权重激活训练 (SWAT) 等算法可以通过仅激活神经网络的一部分来显着减少训练和推理期间的计算开销。5/7 必须知道想法。让我们来谈谈它。

回想一下神经网络的工作原理。当我们训练它们时,输入流经所有神经元,包括向前和向后传递。这就是为什么向神经网络添加更多参数会成倍增加成本的原因。

在我们的网络中添加更多的神经元允许我们的模型从更复杂的数据(如来自多个任务的数据和来自多个感官的数据)中学习。但是,这会增加大量计算开销。

对于 ImageNet 上的 ResNet-50,SWAT 将训练期间的总浮点运算 (FLOPS) 减少了 80%,从而在代表新兴平台的模拟稀疏学习加速器上运行时,训练速度提高了 3.3×而验证精度仅降低 1.63%。此外,SWAT 在向后传递期间将内存占用量减少了 23% 到 50%,对于权重减少了 50% 到 90%。

稀疏激活允许两全其美的方案。添加大量参数可以让我们的模型有效地学习更多任务(并建立更深层次的联系)。稀疏激活允许您仅使用网络的一部分,从而减少推理。这使得网络可以学习并擅长多项任务,而不会花费太高的成本。

六、第五种:过滤器和更简单的模型

与其仅仅依赖大型模型,不如使用更简单的模型或过滤器来处理大多数任务,将大型模型保留给复杂的边缘情况。你会惊讶于你可以用正则表达式、规则和一些数学完成多少。

通过结合这些策略,我们可以释放大型人工智能模型的潜力,同时最大限度地降低其对环境的影响和计算成本。正如亚马逊云科技所指出的,“在深度学习应用程序中,推理占总运营成本的 90%”,这使得这些优化对于广泛采用至关重要。

再一次,要了解有关这些技术的更多信息,请阅读以下内容-

如何高效构建 ChatGPT 等大型 AI 模型
可用于在系统中使用大型数据模型而不会破坏系统的技术

后记

感谢您抽出宝贵时间。与往常一样,如果您有兴趣与我合作或查看我的其他作品,我的链接将位于此电子邮件/帖子的末尾。如果你在这篇文章中发现了价值,我将不胜感激你与更多的人分享。正是像您这样的口碑推荐帮助我成长。
我花了很多精力来创作信息丰富、有用且不受不当影响的作品。如果您想支持我的写作,请考虑成为本通讯的付费订阅者。这样做可以帮助我投入更多的精力进行写作/研究,接触更多的人,并支持我严重的巧克力牛奶成瘾。帮助我每周向超过 100K 读者宣传 AI 研究和工程中最重要的思想。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/680481.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

自动装车系统车辆定位-激光雷达解决方案

在自动装车系统中,激光雷达为车辆定位提供了一种高效且精确的解决方案。以下是关于这一解决方案的详细分析: 一、解决方案概述 激光雷达解决方案在自动装车系统中,通过发射激光束并接收目标反射回来的信号,来探测车辆的位置、状…

新手如何正确使用代理IP,一篇文章学会,包含实战案例

前言 一、代理IP1.1 什么是代理IP?1.2 代理ip分类1.3 代理IP的作用和优势 二、更换代理IP的方法2.1 重启路由器或光猫2.2 用拨号 vps 重拨更换动态IP代理。2.3 使用浏览器更换IP 三、IPIDEA代理的优势四、提取代理IP4.1 提取步骤4.2 浏览器使用代理IP 五、使用代理I…

【Redis数据库百万字详解】数据持久化

文章目录 一、持久化1.1、什么是持久化1.2、持久化方式1.3、RDB优缺点1.4、AOF优缺点 二、RDB持久化触发机制2.1、手动触发2.2、自动触发 三、RDB持久化配置3.1、配置文件3.2、配置查询/设置3.3、禁用持久化3.4、RDB文件恢复 四、RDB持久化案例4.1、手动持久化4.2、自动持久化案…

Hive3.1.2分区与排序(内置函数)

Hive3.1.2分区与排序(内置函数) 1、Hive分区(十分重要!!) 分区的目的:避免全表扫描,加快查询速度! 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成…

【二进制部署k8s-1.29.4】十三、metrics-server的安装部署

文章目录 简介 一.metrics-server的安装 简介 本章节主要讲解metrics-server的安装,metrics-server主要是用于采集k8s中节点和pod的内存和cpu指标,在观察几点和pod的实时资源使用情况还是比较有用的,如果需要记录历史信息,建议采用…

层出不穷的大模型产品,你怎么选?

一:简介 关于大模型AIGC产品的选择与发展趋势,目前许多互联网公司都在不断投入资源和精力开发基于大规模模型的人工智能产品。这些产品通常能够处理更复杂的任务并提供更高质量的服务,如智能问答、自然语言处理、图像识别等。在产品选择上&am…

Linux下查看进程和端口信息

1, 根据进程名(这里是模糊查询)查看进程信息,以查看nginx进程名为例,查看所对应的进程id为19013(或者使用: ps -aux | grep nginx查看占用内存等信息) ps -ef | grep nginx 2, 根据进程id查看进程占用端口,查看对应端口为8080&…

git clone 文件名中文、有冒号等问题 fatal: repository ‘***/r/鏍″洯鏅烘収椋熷爞/.git/‘ not found

记录一个git问题,比较有意思,也比较难找。 背景 首先把代码拉下来,发现给我报错。 怀疑 刚开始以为是仓库地址变了,但是发现仓库地址并没有变过。 交流 然后寻找解决方案。因为同事也遇到过,同事交了我一招&…

docker-compose教程

1. docker-compose是什么? 1. 1 简介 compose、machine 和 swarm 是docker 原生提供的三大编排工具。 简称docker三剑客。Compose 项目是 Docker 官方的开源项目,定义和运行多个 Docker 容器的应用(Defining and running multi-container Do…

男士内裤一般几个月换一个?男性内裤的选购方法分享!

男士内裤,作为日常穿着的重要衣物,往往被许多男性朋友所忽视。然而,一款合适的内裤不仅能够提升穿着的舒适度,还能在一定程度上维护健康。因此,对男士内裤的选择,我们应当给予足够的重视。 众多男性朋友们…

C++——从C语言快速入门

目录 一、数组 1、声明数组 2、初始化数组 3、访问数组元素 4、示例 5、注意事项 6、数组小练习 计算器支持加减乘除 数组找最大值 二、指针 三、字符串 string 类型 一、数组 在 C 中,数组是一种存储固定大小的相同类型元素的序列。数组的所有元素都存…

半导体人才荒,何解?

过去两年,全球半导体行业陷入寒冬,砍单、裁员、减产、倒闭等各种负面消息接踵而至。 2024年来,在全球半导体产业经历周期性下滑后,逐渐迎来复苏,市场景气向好。据WSTS预测,2024年全球半导体市场将同比增长…

四川古力未来科技抖音小店靠谱之选,购物新体验

在当今数字化浪潮下,抖音小店作为新兴的电商平台,正以其独特的魅力和便捷性,吸引着越来越多的消费者。而四川古力未来科技抖音小店,凭借其优质的产品、完善的服务和良好的口碑,成为了众多消费者的靠谱之选。 四川古力未…

Paraformer解读(1)基于self-attention和dfsmn的encoder

DFSMN SAN-M python实现 import torch import torch.nn as nn import torch.nn.functional as Fclass PositionalEncoding(nn.Module):def __init__(self, d_model, dropout0.1, max_len5000):super(PositionalEncoding, self).__init__()self.dropout nn.Dropout(pdropout)p…

国资国企如何高效实现数据监管报送

为深入贯彻国家关于数字经济与实体经济融合发展的重要指示,结合国资监管信息系统的规范要求,亿信华辰积极响应,助力国企走上数字化转型的道路。应对国资国企监管要求,国资国企监管数据填报平台作为数字化建设的关键环节&#xff0…

【Vue】——前端框架的基本使用

💻博主现有专栏: C51单片机(STC89C516),c语言,c,离散数学,算法设计与分析,数据结构,Python,Java基础,MySQL,linux&#xf…

超声波清洗机哪个品牌好用点?四款超卓超声波清洗机疯狂安利!

在这个注重效率与清洁卫生的时代,小型超声波清洗机因其便携性、高效能以及出色的清洁效果,成为了家庭和小型工作室的必备神器。无论是清洗珠宝、眼镜、化妆刷,还是日常的金属餐具和电子产品,小型超声波清洗机都能轻松应对&#xf…

操作失败——后端

控制台观察,页面发送的保存菜品的请求 返回的response显示: ---------- 我开始查看明明感觉都挺正常,没啥错误,就是查不出来。结果后面电脑关机重启后,隔一天看,就突然可以了。我觉着可能是浏览器的缓存没…

C# 声音强度图绘制

C# 声音强度图绘制 采集PCM音频数据 音频原来自麦克风 音频源来自录音文件 处理PCM音频数据 将PCM数据进行强度值换算 private void UpdateVoice(double[] audio){// 计算RMS值double rms Math.Sqrt(audio.Select(x > x * x).Average());// 将RMS值转换为分贝值&#x…

常用的接口测试工具

大家好,当谈到软件开发中的质量保证时,接口测试无疑是至关重要的一环。在当今快节奏的开发环境中,确保应用程序的各个组件之间的交互正常运作是至关重要的。而接口测试工具则成为了开发人员和测试人员的得力助手,帮助他们有效地测…