14-62 剑和诗人36 - 混合专家 (MoE) 扩展 AI 视野

了解混合专家 (MoE)

混合专家 (MoE) 是一种机器学习技术,它将多个“专家”神经网络模型组合成一个更大的模型。MoE 的目标是通过组合专业专家(每个专家专注于不同的子领域)来提高 AI 系统的准确性和能力。

14-62 剑和诗人36 - 混合专家 (MoE) 扩展 AI 视野

MoE 模型的一些关键特征:

  • 由多个专家神经网络组成,专注于更大问题空间的专门子域
  • 包括门控网络,用于确定针对每个输入使用哪个专家
  • 专家可以根据自己的专业调整不同的神经网络架构
  • 训练同时涉及专家和门控网络
  • 可以比单一模型更好地对复杂多样的数据集进行建模

例如,专注于计算机视觉任务的 MoE 模型可以有专门识别不同类型物体(如人、建筑物、汽车等)的专家。门控网络将确定针对输入图像的每个区域使用哪个专家。

MoE 提供的一些好处:

  • 通过结合专家来提高准确性
  • 可扩展性,因为可以为新任务/数据添加专家
  • 由于每个专家都专注于一个子领域,因此具有可解释性
  • 模型优化,因为专家可以有不同的架构

MoE 在提升 AI 系统的大型神经网络建模能力方面表现出了巨大的潜力。然而,如何有效地训练和部署 MoE 模型(尤其是在非常大规模的情况下)仍然存在挑战。

14-62 剑和诗人36 - 混合专家 (MoE) 扩展 AI 视野

混合专家 (MoE) 架构

混合专家模型由几个协同工作的关键组件组成:

专家神经网络

专家是专注于解决特定类型的问题或处理某些输入模式的个体专业模型。通常,神经网络用于利用表征学习。每个专家只能看到一部分数据。

例如,在文本分类中,一位专家可能专注于检测垃圾邮件,而另一位专家则专注于识别积极情绪。

他们通常同时接受发送给他们的样本的训练。现代 MoE 可能包含数百或数千名专家。

门控网络

门控网络负责根据可学习的注意力得分将每个输入查询动态路由到相关专家网络。它查看输入特征和全局上下文,并输出要激活的专家的软概率分布。

由于每个样本只需要执行稀疏的专家子集,因此将专家混合模型确立为条件计算模型。门控网络决定激活整体模型的哪些部分。

路由器

路由器接收门控分布和查询输入,并选择一个或多个专家网络进行相应处理。常见的选择方法包括 top-k、噪声 top-k 和更复杂的分层混合,以减少计算负载。

在某些版本中,路由器会查询多个专家并根据标准化分数组合他们的输出。

需要进步

虽然 MoE 已显示出显着的准确性和能力提升,但要真正释放下一代 AI 所需的极端规模的模型能力,还需要取得一些重要的进步:

更高效的推理

由于每个示例的门控成本,使用非常大的 MoE 模型运行推理(进行预测)可能具有挑战性且成本高昂。随着模型规模的增加,如果不进行优化,门控计算会变得非常缓慢且成本高昂。

训练稳定性和收敛性

随着专家数量的增加,MoE 模型的训练过程趋于不稳定,难以收敛到最优解。我们需要在训练方法上取得新进展,以利用数千甚至数百万专家。

专用硬件

为了提供速度、规模和成本效益,训练和运行大型 MoE 模型推理所需的计算硬件可能需要专门化。

模型并行性

为了达到全脑水平智能所需的大规模,将 MoE 训练和推理分散到多个设备(如多 GPU 或云基础设施)上的极端模型并行性将至关重要。

我相信基于 MoE 的模型有潜力解锁变革性的下一代人工智能——将模型从狭义或专业智能推进到通用人工智能 (AGI)。但仍需取得一些重要进展,以改进大规模推理、训练效率并利用专用硬件。

大规模 MoE 推理

在极大规模下运行基于 MoE 的模型推理面临着几个独特的优化挑战:

每个示例的门控成本

每个推理查询都需要先通过门控网络来确定路由到相关专家。对于巨型模型,这种每个示例的门控成本可能会变得非常缓慢且昂贵。

高内存带宽使用率

门控计算需要同时集中访问所有专家的信息以确定路由,从而导致非常频繁的随机内存访问模式。这限制了没有内存优化的推理吞吐量。

更有效的大规模 MoE 推理的一些进步包括:

门控共享

门控网络计算在输入示例批次之间共享。通过批处理,每个示例的成本被摊销,从而使门控函数更加高效。

专家级并行

专家本身被分布在多个加速器上进行并行计算,从而增加了总推理吞吐量。

分级门控

多级分级门控网络用于拥有专门的本地路由器,这些路由器将信息全局传输给相关专家。这在保持效率的同时提高了准确性。

模型压缩

蒸馏和修剪等模型压缩技术的变体被应用于门控网络和专家,以优化内存使用和访问模式。

专用硬件

Google TPU-v4 Pod 等定制硬件具有针对 MoE 等模型量身定制的内置软件和内存优化,可将推理速度提高 10 倍以上。

随着模型规模从现在起增加 100 倍甚至 1000 倍,围绕分层门控、自动专家架构搜索和硬件-软件协同设计等领域的新优化可能会出现,以保持可处理的推理。

MoE 推理引擎的效率对于实现全脑规模智能至关重要,它可以无缝处理跨文本、图像、语音、代码、控制策略和任何数据模式的多领域推理。

教育部培训的进步

尽管 MoE 有望通过整合众多专家来提高模型能力,但模型训练过程带来了一些挑战,尤其是在极端规模下。最近的一些进展使大规模 MoE 训练更加稳定和可实现:

一对一专家数据映射

训练数据的独特子集可以明确映射到相关专家,从而使他们在语义上进行专门化。这提高了整体收敛性。

异步模型复制

专家集异步复制以创建维护训练进度的备份。删除表现不佳的专家不会丢失关键训练信号。

可学习的门控逻辑

使门控逻辑本身的某些部分可微分且可调,有助于在专家不断进行专业化迭代时动态路由数据。允许自我调整以实现稳定性。

专家架构搜索

根据实时训练收敛情况自动搜索专家神经架构构建块。通过学习路由可以完全避免不良架构。

基于噪声的专家正则化

在训练期间向专家可用性中随机注入像 Dropout 这样的噪声使得路由对缺失专家具有鲁棒性,避免在特定的专家子集上过度拟合。

这些创新共同提高了训练稳定性。这使得 MoE 模型拥有数千名专家,而之前的研究只有数百名专家。

然而,关于如何用数百万甚至数十亿专家训练模型的最佳技术,仍有许多悬而未决的问题。必须出现围绕渐进分层训练、循环、终身专家重放和冲突处理的新方法,以防止天文规模的有害专家干扰。

下一代人工智能用例

高效大规模推理、稳定分布式训练和专业硬件优化等领域的进步将有助于在未来几年内实现具有数千亿到数万亿个参数的 MoE 模型。如此巨大的扩展能带来什么?

多任务、多模式人工智能助手

人类可以在视觉、语言、声音和其他感官模式之间无缝切换。同样,拥有 1000 倍以上专家的全脑 MoE 模型可以同时处理文本、图像、语音、视频和感官流。这使得多任务 AI 助手能够共享全模式表示和专业知识。

超个性化推荐

细粒度的专家专业化允许不同的专家对电影、旅游目的地、播客、书籍等不同领域的用户兴趣进行建模。通过为每个用户动态组合专业专家,他们可以根据狭窄的领域提供个性化推荐。

科学与技术发现

领域专家组可以吸收全部科学论文、患者健康数据、基因数据集或任何技术资料,从而识别新的联系。这加速了假设的产生和实验,促进了科学和工程领域的进步。

稳健的控制政策

大量专家可以专注于处理跨环境、任务、干扰和执行器动态的机器人控制的极端情况。通过混合和匹配专业专家来处理新场景,MoE 系统可以一起学习稳健的策略。

所涵盖的专业知识的广度、学习新领域的速度以及通过发明动态组合专业技能的方法而实现的任务灵活性是扩大的 MoE 模型的独特优势,是任何其他技术都无法比拟的。

挑战与未来方向

虽然最近的进展表明,基于 MoE 的模型有潜力扩展到数万亿个参数,从而实现多任务、多模式 AI,但仍存在许多悬而未决的挑战:

信息隔离

确保有用的专业化而不受有害干扰需要专家之间保持信息隔离。过早的冲突会导致混乱的表述。自上而下的信号必须集中专业知识,自下而上的混乱检测需要通过门控调整来解决。

发明缺失的专家

数十亿专家无法手动列举所有有用的技能。必须发明自动化流程,通过重组基本技能来为稀有任务产生专家。终身自我监督的长尾需求聚类至关重要。

新兴系统性

简单的记忆无法捕捉底层结构。门控和专家聚类数据之间的交互必须产生系统解开的概念表征。应该会出现类似语法的组合概括。

高效的信用分配

随着数十亿专家独立进步,确定系统进步的因果贡献对于有针对性的放大来说变得极为复杂。无关信号会稀释需要稀疏性的有用方向。

安全探索

对新可能性的无限想象需要在实现之前判断其是否符合伦理道德。驱动全能专家的好奇心必须以同情心为首要因素。

未来的方向包括围绕一致性、最佳传输、共识动态和信息瓶颈开发数学框架,这些框架专门针对 MoE 系统独有的动态和规模而设计。

14-62 剑和诗人36 - 混合专家 (MoE) 扩展 AI 视野

结论

推进混合专家技术以实现解决多领域挑战的下一代人工智能需要重新思考学习、泛化、因果关系和安全的基本原则,同时在特定规模的训练、推理和硬件架构上进行创新。未来十年的 MoE 有望成为人工智能革命的激动人心的前沿!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791255.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Golang | Leetcode Golang题解之第225题用队列实现栈

题目: 题解: type MyStack struct {queue []int }/** Initialize your data structure here. */ func Constructor() (s MyStack) {return }/** Push element x onto stack. */ func (s *MyStack) Push(x int) {n : len(s.queue)s.queue append(s.queu…

Linux笔记之使用系统调用sendfile高速拷贝文件

Linux笔记之使用系统调用sendfile高速拷贝文件 code review! 文章目录 Linux笔记之使用系统调用sendfile高速拷贝文件sendfile 性能优势sendfile 系统调用优点:缺点: cp 命令优点:缺点: 实际测试:拷贝5.8个G的文件&a…

14-63 剑和诗人37 - 分布式系统中的数据访问设计

​​ 在分布式系统中,跨服务和数据库提供统一、可靠的数据访问至关重要,但又极具挑战性。微服务和数据库的拓扑结构为分布、缓存、复制和同步带来了复杂性。 让我们探索有助于解决这些复杂性并简化构建强大、高性能分布式系统的常见数据访问模式。 概述 我们将通过示例介绍…

苹果手机抹机(马来西亚)操作步骤

苹果手机抹机(马来西亚)操作步骤 操作环境操作步骤 操作环境 苹果6s,没有插卡,就连接上了一个wifi 操作步骤

领取serv00免费虚拟主机

参考 ‍ 教程地址【免费serv00虚拟机SSH登录搭建网站】 ‍ 领取地址 ​​ 领到了 ​​ SSH登录要魔法,网页登录不用 ​​ 轻松搭建自己的静态网站 ​​ ‍ soulio.serv00.net 网页加载速度还可以。 ​​ ‍ ‍

Qt/QML学习-定位器

QML学习 定位器例程视频讲解代码 main.qml import QtQuick 2.15 import QtQuick.Window 2.15Window {width: 640height: 480visible: truetitle: qsTr("positioner")Rectangle {id: rectColumnwidth: parent.width / 2height: parent.height / 2border.width: 1Col…

Django 框架下的media和static静态文件

Django有两种静态文件 static: 静态文件夹,存放CSS,JS,网站的一些图片等静态资源,为Templates下的html页面提供的。static是不会变化的 media:媒体文件夹,存放网站中用户所相关的一些文件,比如说用户的图片…

杜比全景声——空间音频技术

什么是杜比?是否是标清、高清、超清之上的更清晰的格式?杜比全景声 和传统多声道立体声的差别?杜比全景声音频的渲染方式?车载平台上杜比技术的应用? 杜比技术的起源 杜比实验室(Dolby Laboratories&…

SpringBoot使用RedisTemplate、StringRedisTemplate操作Redis

前言 RedisTemplate 是 Spring Boot 访问 Redis 的核心组件,底层通过 RedisConnectionFactory 对多种 Redis 驱动进行集成,上层通过 XXXOperations 提供丰富的 API ,并结合 Spring4 基于泛型的 bean 注入,极大的提供了便利&#x…

【计算机网络03】不花钱怎么搭建一个网络实验室

使用GNS3和虚拟机搭建网络实验室 1、安装抓包工具分析数据包2、定义和使用抓包筛选器3、安装和配置GNS34、配置路由器和VPCS5、使用WireShark捕获GNS3网络数据包6、VMware创建虚拟机7、使用思科PacketTracer 1、安装抓包工具分析数据包 官网安装wireshark:https://…

LLM大模型应用中的安全对齐的简单理解

LLM大模型应用中的安全对齐的简单理解 随着人工智能技术的不断发展,大规模语言模型(如GPT-4)的应用越来越广泛。为了保证这些大模型在实际应用中的性能和安全性,安全对齐(Safe Alignment)成为一个重要的概…

Nginx中文URL请求404

这两天正在搞我的静态网站。方案是:从思源笔记Markdown笔记,用MkOcs build成静态网站,上传到到Nginx服务器。遇到一个问题:URL含有中文会404,全英文URL则正常访问。 ‍ 比如: ​​ ‍ 设置了utf-8 ht…

时序分解 | Matlab基于ESMD极点对称模态分解

时序分解 | Matlab基于ESMD极点对称模态分解 目录 时序分解 | Matlab基于ESMD极点对称模态分解效果一览基本介绍程序设计参考资料 效果一览 基本介绍 ESMD(Extreme-point Symmetric Mode Decomposition)是一种信号分解方法,用于提取信号中的模…

AC修炼计划(AtCoder Regular Contest 180) A~C

A - ABA and BAB A - ABA and BAB (atcoder.jp) 这道题我一开始想复杂了,一直在想怎么dp,没注意到其实是个很简单的规律题。 我们可以发现我们住需要统计一下类似ABABA这样不同字母相互交替的所有子段的长度,而每个字段的的情况有&#xff…

LoRaWAN网络协议Class A/Class B/Class C三种工作模式说明

LoRaWAN是一种专为广域物联网设计的低功耗广域网络协议。它特别适用于物联网(IoT)设备,可以在低数据速率下进行长距离通信。LoRaWAN 网络由多个组成部分构成,其中包括节点(终端设备)、网关和网络服务器。Lo…

web后端开发--请求响应

目录 前言 请求 简单参数 原始方法 Spring方式 Post请求乱码处理 实体参数 简单实体参数 复杂实体参数 ​编辑 数组集合参数 数组参数 ​编辑 集合参数 日期参数 ​编辑 Json参数 ​编辑 传递json数据 json数组 json对象(POJO) jso…

分享一个项目模板electron+vue+ts+vite

分享一个项目模板electronvuetsvite GitHub - xiugou798/electron-vue-ts-vite-template: electron-vue-ts-vite-templateelectron-vue-ts-vite-template. Contribute to xiugou798/electron-vue-ts-vite-template development by creating an account on GitHub.https://gith…

springboot中通过jwt令牌校验以及前端token请求头进行登录拦截实战

前言 大家从b站大学学习的项目侧重点好像都在基础功能的实现上,反而一个项目最根本的登录拦截请求接口都不会写,怎么拦截?为什么拦截?只知道用户登录时我后端会返回一个token,这个token是怎么生成的,我把它…

打印任务无法删除怎么办?

在删除打印任务的时候,你可能会遇到这样的情况,当我们想把打印任务取消的时候,却一直显示正在删除,而过了很久还没有取消掉,下面就分享一下处理这个问题的方法。 1、停止打印服务,按WinR键打开运行对话框&a…

香蕉派BPI-Wifi6迷你路由器公开发售

Banana Pi BPI-Wifi6 Mini 公开发售。 Banana Pi BPI-Wifi6 Mini 开源路由器采用Triductor TR6560 TR5220 wifi SOC设计,是一款迷你尺寸的wifi6路由器解决方案。内置高性能双核ARM Cortec A9处理器用于WIFI报文转发或智能业务处理,内置高性能LSW和硬件N…