最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。

详情戳:卡奥斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5

答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。

图片

具体来说Character.ai在整个服务堆栈中实现了如下成绩:

  • 内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量

  • Attention状态缓存:95%请求无需重算

  • 直接用in8精度量化训练:推理零损失还省显存

Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!

众多公布的方法中,原生int8训练是最受关注的。

图片

虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。

图片

秘诀1:高效利用显存,attention 参数量降低20倍

大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(KV)缓存便是罪魁祸首之一。

为了降低显存占用,Character.AI在Attention层大动手术:

  • 全面采用MQA(Multi-Query Attention)

与大多数开源模型中采用的GQA(Grouped-Query Attention)相比,将KV缓存大小减少了 8 倍。

而MQA正是沙哥本人2019年在谷歌期间提出的,有网友评价“当一个人能在生产环境中引用自己的论文,就达到了一个新的高度”。

图片
  • 混合注意力视野

将局部注意力与全局注意力层交织在一起,使用滑动窗口训练局部注意力,将复杂度从 O(length^2 ) 降低到 O(length)。

团队发现,将大多数注意力层的注意力范围减少到1024不会对评估指标产生重大影响,包括长上下文大海捞针基准。在Character.ai生产模型中,每6层中只有1层使用全局注意力

  • 跨层KV共享

团队将KV缓存绑定在相邻的注意力层上,这进一步将 KV缓存大小减少了 2-3 倍。

对于全局注意力,跨块绑定多个全局层的KV缓存,因为全局注意力层在长上下文用例中主导KV缓存大小,团队发现跨层共享KV不会降低质量。

下图中左半部分是标准Transformer设计,每个注意力都是全局注意力。右半部分为Character.ai的设计,蓝色框表示全局注意力,绿色框表示局部注意力,连线表示KV共享。

图片

这一套组合拳下来,KV缓存大小减少20倍以上,显存再也不是瓶颈了。

秘诀2:巧用状态缓存,95%请求无需重算

Character.AI还有一招神来之笔,就是在不同对话之间缓存Attention状态

作为聊天机器人角色扮演服务,Character.AI上大部分对话都是连续多轮的,平均每个对话包含180条消息。如果每次都要重新计算前面的状态,成本可想而知。

于是团队设计了一个缓存机制,把每个对话的Prefix和生成的消息都缓存在内存中,供后续调用。

借鉴RadixAttention的思路,树状结构的LRU缓存组织缓存的KV张量。缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存,即使前缀只有部分匹配也能命中。

更妙的是,他们还用会话保持(Sticky Session)把同一对话路由到同一个服务器,进一步提高缓存命中率。最终做到95%的请求都能复用已有缓存,大幅降低了计算成本。

下图中,蓝色框表示主机内存上的缓存张量。绿色和黄色框表示CUDA内存上的KV缓存。当新查询到达时,它检索最长匹配前缀的KV缓存,Rolling Hash系统允许检索部分匹配消息的缓存。

图片

秘诀3:直接量化训练,推理零损失还省显存

最后一招,Character.AI没有采用常见的“训练后量化”,而是直接用Int8精度训练模型

这种格式虽然表达精度降低,但通过精心设计定制的矩阵乘和 Attention 内核,不仅把训练效率提高了好几倍,而且还能无损用于推理。

不过沙哥在这里暂时留了一手,表示“量化训练本身就是一个复杂的话题,将在以后的文章中继续讨论。”

沙哥其人

最后再来介绍一下传奇人物Noam Shazeer本人。

图片

他1994年拿了信息学奥赛IOI金牌,后来毕业于杜克大学。

2000年加入谷歌,当时全公司只有200人左右,他参与了谷歌搜索的拼写纠正功能,后来也负责过早期广告系统。

据知情人透露,在当初面试谷歌时,沙哥就被问到如何实现拼写纠正。他描述了一种根据其他用户的输入输入记录,进行统计验证的方法。

面试官Gmail之父Paul Buchheit意识到,沙哥的方案比谷歌当时使用的要好。沙哥成功入职之后就把他的面试方案写出来了。

图片

在Transformer开山之作《Attention is All You Need》研究中,沙哥最后一个加入团队,一来就负责重新编写了整个代码。

在沙哥出手之前,Transformer早期原型性能并没有超越当时流行的LSTM方案,是他把早期设计中的卷积等模块都拿掉,给出了一个极简主义方案。最终破了BLEU测试的记录,同时计算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外,沙哥还有惊人的远见。在Transformer架构问世不久,他就给谷歌高层写信,提议公司放弃整个搜索索引,并用Transformer架构训练一个巨大的神经网络替代。

2021年,沙哥离开谷歌后创办了Character.AI,让玩家简单自创个性化AI陪聊,目前估值约50亿美元。

图片

最近有消息称,Meta与马斯克的𝕏都在争取与他们合作,把聊天机器人引入社交平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730286.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot3 连接 oceanbase + logproxy数据同步到redis

我这用的是 社区版的 单机, rocky liunx 安装oceanbase 注意事项: logproxy 是 CDC 模式 , springboot 可以直接订阅 canal 是 binlog模式, canal 订阅 logproxy, springboot 订阅 canal logproxy 也可以转 bi…

何在 Vue3 中使用 Cytoscape 创建交互式网络图

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Vue.js 中加载 Cytoscape.js 的技术实现 应用场景 Cytoscape.js 是一个用于创建交互式网络的可视化库。在生物信息学、社会网络分析和药物发现等领域中得到了广泛应用。 基本功能 本代码片段演示了如何在 V…

python测试工程师 之 unittest框架总结

unittest 学习目标unittest 框架的基本使⽤⽅法(组成)断⾔的使⽤ (让程序⾃动的判断预期结果和实际结果是否相符)参数化(多个测试数据, 测试代码写⼀份 传参)⽣成测试报告 复习pythonunittest 框架的介绍核⼼要素(组成)1. TestCase 测试⽤例, 这个测试⽤例是 unittest 的组成部…

LeetCode题练习与总结:克隆图--133

一、题目描述 给你无向 连通 图中一个节点的引用,请你返回该图的 深拷贝(克隆)。 图中的每个节点都包含它的值 val(int) 和其邻居的列表(list[Node])。 class Node {public int val;public L…

【案例分析:基于 Python 的几种神经网络构建 一维的和二维的全介质和金属SPR 材料的光谱预测与逆向设计】

案例分析:传播相位与几何相位超构单元仿真与器件库提取与二维超构透镜设计与传播光场仿真 案例分析: 片上的超构单元仿真与光学参数提取 案例分析:基于粒子群方法的耦合器设计 案例分析:基于 Python 的几种神经网络构建 一维的和二…

【大分享06】收、治、用、安“四管齐下”, 做好多业务系统电子文件归档与管理

关注我们 - 数字罗塞塔计划 - 本篇是参加由电子文件管理推进联盟联合数字罗塞塔计划发起的“大分享”活动投稿文章,来自上海泰宇信息技术股份有限公司,作者:金靓。 随着数字政府建设的深入推进以及“互联网政务服务”的快速发展&#xff0c…

canal 服务安装

简介:Canal 是阿里巴巴开源的一个基于 MySQL 数据库增量日志解析的中间件,用于提供准实时的数据同步功能。 准备工作 1.修改配置文件 ,需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下&#xf…

sqlmap使用以及GUI安装

下载 GUI版地址: GitHub - honmashironeko/sqlmap-gui: 基于官版本 SQLMAP 进行人工汉化,并提供GUI界面及多个自动化脚本 GUI使用 可以点击.bat启动 如果点击.bat启动不了就在这里打开cmd,输入对应的.bat来启动 linux安装 地址:sqlmap: automatic SQL injection…

最新评测:2024年13款国内外缺陷跟踪管理工具(含免费/开源)

文章中介横向对比了11款主流缺陷管理工具:1. PingCode;2. Worktile;3. Jira;4. ZenTao(禅道);5. Bugzilla;6. Redmine;7. Tapd;8. MantisBT;9. Tr…

【变量与常量】

1.基本程序 容器用来存放物品 声明变量 num 是个用来装整数的变量 ! 一 个整数变量需要 4 个 byte 存储, 计算机 在内存里为你分配了 4 个 byte 。int num;在代码中,声明一个变量。 常用变量类型 存储不同类型的数据需要声明不同类型的变…

MacOS - ToDesk 无法远程操控鼠标键盘解决方案

问题描述 远程后发现画面显示正常,但是键盘和鼠标的操作没有响应。 原因分析 可能是辅助功能没有勾选ToDesk_Session的权限。 解决方案 系统设置 - 隐私与安全性 - 辅助功能 进去后找到 ToDesk,开关打开,输入系统密码,重启 App …

Swift Combine — Notification、URLSession、Timer等Publisher的理解与使用

Notification Publisher 在Swift的Combine框架中,可以使用NotificationCenter.Publisher来创建一个能够订阅和接收通知的Publisher。 // 创建一个订阅通知的Publisher let notificationPublisher NotificationCenter.default.publisher(for: Notification.Name(&…

【阿里云服务器】【弹性云服务ECS】通过ssh登录远程服务器

一、操作系统 使用Windows11主机上的Ubuntu子系统,如下图所示: 二、云服务器登录方法 需知道:服务器ip地址、登录名和自己设置的登录密码: 上述系统用户名为root,需要在Ubuntu子系统中同样切换至root用户&#xff…

界面控件DevExpress v24.1全新发布 - 跨平台性进一步增强

DevExpress拥有.NET开发需要的所有平台控件,包含600多个UI控件、报表平台、DevExpress Dashboard eXpressApp 框架、适用于 Visual Studio的CodeRush等一系列辅助工具。屡获大奖的软件开发平台DevExpress 今年第一个重要版本v23.1正式发布,该版本拥有众多…

电子杂志制作工具推荐:让你轻松成为编辑大人

在这个数字化的时代,电子杂志已经成为信息传播的重要载体。它不仅能够满足人们对阅读的需求,还能够提供更加丰富、互动的阅读体验。因此,掌握一款好用的电子杂志制作工具,已经成为每个编辑大人的必备技能。接下来告诉大家一个超简…

Nacos安装教程(很细很简单),解决启动报错Please set the JAVA_HOME

nacos安装 找到你要下载的版本解压到任意非中文目录下端口默认8848,如有端口冲突,可修改配置文件中的端口。编辑shutdown.cmd文件,路径换成你的jdk安装地址否则会报错Please set the JAVA_HOME variable in your environment, We need java(x…

基于Pytorch框架的深度学习Vision Transformer神经网络蝴蝶分类识别系统源码

第一步:准备数据 6种蝴蝶数据:self.class_indict ["曙凤蝶", "麝凤蝶", "多姿麝凤蝶", "旖凤蝶", "红珠凤蝶", "热斑凤蝶"],总共有900张图片,每个文件夹单独放一种…

使用自签名 TLS 将 Dremio 连接到 MinIO

Dremio 是一个开源的分布式分析引擎,为数据探索、转换和协作提供简单的自助服务界面。Dremio 的架构建立在 Apache Arrow(一种高性能列式内存格式)之上,并利用 Parquet 文件格式实现高效存储。有关 Dremio 的更多信息,…

跑通并使用Yolo v5的源代码并进行训练—目标检测

跑通并使用Yolo v5的源代码并进行训练 摘要:yolo作为目标检测计算机视觉领域的核心网络模型,虽然到24年已经出到了v10的版本,但也很有必要对之前的核心版本v5版本进行进一步的学习。在学习yolo v5的时候因为缺少论文所以要从源代码入手来体验…

Eureka 学习笔记(1)

一 、contextInitialized() eureka-core里面,监听器的执行初始化的方法,是contextInitialized()方法,这个方法就是整个eureka-server启动初始化的一个入口。 Overridepublic void contextInitialized(ServletContextEvent event) {try {init…