阿里云推出第八代企业级实例 g8i:AI 推理性能最高提升 7 倍、可支持 72B 大语言模型

云布道师

1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。

通用算力再提升,整机性能提升 85%

作为企业级通用计算实例,ECS g8i 实例在计算、存储、网络和安全等能力得到了全方位提升。从关键参数上看,ECS g8i 实例的 L3 缓存容量提升到 320MB,内存速率高达 5600MT/s,整机性能提升 85%,单核性能提升 25%;存储方面,ESSD 云盘提供 100万 IOPS,全面搭载 NVMe,存储延迟低至百微秒;网络方面,PPS 高达 3000 万,标配阿里云自研 eRDMA 大规模加速能力,时延低至 8 微秒;安全方面,ECS g8i 实例支持可信计算与加密计算等特性,全球率先支持机密虚拟机 TDX 技术,构建了全面的安全防护。在这里插入图片描述
在 E2E 场景下,ECS g8i 实例可将 MySQL 性能提升最高达 60%,Redis 和 Nginx 的性能分别提升 40% 和 24%,面向游戏、视频直播、电商、金融、医疗、企业服务等行业提供强劲的算力支持,满足其在数据库、大数据、AI 推理等应用场景下对性能的严苛要求。

此外,ECS g8i 实例还提供了多种硬件原生加速能力,包括 QAT 和 IAA 等加速器。阿里云通过自研技术,将硬件加速能力更细颗粒度透传至实例虚拟机,小规格的 ECS g8i 实例也同样具备加速能力。其中,依托于 QAT 原生加解密加速器,ECS g8i 实例在压缩/解压缩场景下性能最大可提升 70 倍,加解密性能提升 4 倍以上。

为 AI 提速,可支撑 72B 参数的大语言模型

生成式 AI 掀起的技术革命,正在推动计算范式发生根本性的变化。当前,AI 大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

阿里云 ECS g8i 实例针对这些难题都进行了相当程度的优化,包括内置指令集从AVX512 升级到了 Intel AMX 高级矩阵扩展加速技术,可让生成式 AI 更快地运行。相对于 AVX512 指令集,启用 AMX AI 加速后,ECS g8i 实例在 int 8 矩阵计算的性能最高提升 7 倍。
图片
基于 AMX AI 加速能力,g8i 可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相比 A10 GPU 云服务器下降50%。此外,配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。

对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI 集群,这个时候网络通讯成了主要的性能瓶颈。基于阿里云自研的 eRDMA 超低延时弹性网络,ECS g8i 实例集群拥有超低延时网络和高弹性优势,可轻松支撑 72B 参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize 的超大参数规模的 AI 模型负载,运行文生图、AI 生成代码、虚拟助手以及创意辅助工具等 AI 工作负载。
在这里插入图片描述
以阿里云开源的 Qwen-72B 大模型为例,可在 g8i 实例 eRDMA 网络构建的集群实现高效运行,在输入小于 500 字情况下,首包延时小于 3 秒,每秒可生成 7 个Token。

为安全加码,助力企业构建可信 AI 应用

长久以来,云厂商一直在不遗余力提升数据的隐私保护和安全性,AI 时代尤为明显。基于自研的 CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于 CIPU 的安全架构搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。
在这里插入图片描述
值得一提的是,此次升级的 ECS g8i 实例全量支持 Trust Domain Extension TDX 技术能力,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,并以极低的性能损耗为大模型等 AI 应用提供隐私增强算力,护航大模型的云上数据安全。
在这里插入图片描述
以 Qwen-Chat-7B 模型为例,启用 TDX 后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性。
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/353988.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

分布式事务入门,最终一致性方案

分布式事务 回顾分布式事务 上篇内容我们说到了分布式事务的基本内容,讲到了分布式事务的实现主要有事务协调以及最终一致性两件事情来完成整个逻辑。 那么上个文章我们说过了 2PC、3PC、XA 三种协调事务的协议,这次我们来说事务协调处理完成后&#x…

node.js 分布式锁看这篇就够用了

Redis SETNX 命令背后的原理探究 当然,让我们通过一个简单的例子,使用 Redis CLI(命令行界面)来模拟获取锁和释放锁的过程。 在此示例中 获取锁: # 首先,设置锁密钥的唯一值和过期时间(秒) 127.0.0.1:6379> SET …

小型商用机器人,如何做到小而强?

兼顾体型和性能。 体型和性能的矛盾 一直以来,商用清洁机器人的应用场景主要集中在大型商场、超市、写字楼等,为什么1000平米以下的小型商超等中小场景却很少涉足?原因可以说有很多,但核心为两方面,一方面&#xff0…

2024幻兽帕鲁服务器,阿里云配置

阿里云幻兽帕鲁服务器Palworld服务器推荐4核16G配置,可以选择通用型g7实例或通用算力型u1实例,ECS通用型g7实例4核16G配置价格是502.32元一个月,算力型u1实例4核16G是432.0元/月,经济型e实例是共享型云服务器,价格是32…

Metaphor(EXA) 基于大语言模型的搜索引擎

文章目录 关于 Metaphor使用示例 关于 Metaphor Metaphor是基于大语言模型的搜索引擎,允许用户使用完整的句子和自然语言搜索,还可以模拟人们在互联网上分享和谈论链接的方式进行查询内容。 Metaphor同时还能与LLMs结合使用,允许LLMs连接互联…

网络安全04-sql注入靶场第一关

目录 一、环境准备 1.1我们进入第一关也如图: ​编辑 二、正式开始第一关讲述 2.1很明显它让我们在标签上输入一个ID,那我们就输入在链接后面加?id1 ​编辑 2.2链接后面加个单引号()查看返回的内容,127.0.0.1/sqli/less-1/?id1,id1 …

粒子群优化算法(Particle Swarm Optimization,PSO)求解基于移动边缘计算的任务卸载与资源调度优化(提供MATLAB代码)

一、优化模型介绍 移动边缘计算的任务卸载与资源调度优化原理是通过利用配备计算资源的移动无人机来为本地资源有限的移动用户提供计算卸载机会,以减轻用户设备的计算负担并提高计算性能。具体原理如下: 任务卸载:移动边缘计算系统将用户的计…

网站防护可以采用高防SCDN吗?

随着网络攻击日益复杂和频繁,网站安全已经成为业界的头等大事。在这个背景下,高防SCDN(高防御内容分发网络)作为一种强大的网络保护工具,正逐渐成为各类网站不可或缺的安全设施。很多人会问,网站防护可以采…

项目解决方案:4G/5G看交通数字化视频服务平台技术方案

目 录 1.总体描述 2.系统结构图 3.系统功能 3.1 信息交互 3.2 语音对讲 3.3 实时码流转换 3.4 流媒体集群和扩容 3.5 负载均衡 3.6 流媒体分发 3.7 流媒体点播 4.系统标准 4.1 流媒体传输 4.2 视频格式 4.3 质量标准 5.设备清单 1.总体描述 视频监控平…

【学术论文写作 笔记02】 鲁棒性实验写作的行文逻辑

文章目录 一、声明二、行文思路三、示例范文一范文二 一、声明 自己总结的,有问题望指正! 二、行文思路 为什么要做鲁棒性测试怎么做实验结论对结果的解释 三、示例 PPT 范文一 2022, TIM, “A Robust and Reliable Point Cloud Recognition Netw…

跟着cherno手搓游戏引擎【13】着色器(shader)

创建着色器类&#xff1a; shader.h:初始化、绑定和解绑方法&#xff1a; #pragma once #include <string> namespace YOTO {class Shader {public:Shader(const std::string& vertexSrc, const std::string& fragmentSrc);~Shader();void Bind()const;void Un…

Adobe ColdFusion 任意文件读取漏洞复现(CVE-2023-26361)

0x01 产品简介 Adobe ColdFusion是美国奥多比(Adobe)公司的一套快速应用程序开发平台。该平台包括集成开发环境和脚本语言。 0x02 漏洞概述 Adobe ColdFusion平台 filemanager.cfc接口存在任意文件读取漏洞,攻击者可通过该漏洞读取系统重要文件(如数据库配置文件、系统配…

56. 合并区间 - 力扣(LeetCode)

题目描述 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 题目示例 输入&#xff1a;intervals [[1,3…

专有钉钉开发记录,及问题总结

先放几个专有钉钉开发文档 专有钉钉官网的开发指南 服务端(后端)api文档 前端api文档 前端开发工具下载地址 小程序配置文件下载地址 后端SDK包下载地址 专有钉钉域名是openplatform.dg-work.cn 开发记录 开发专有钉钉时有时会遇到要使用钉钉的api&#xff1b;通过 my 的方…

分布式id-雪花算法

一、雪花算法介绍 Snowflake&#xff0c;雪花算法是有Twitter开源的分布式ID生成算法&#xff0c;以划分命名空间的方式将64bit位分割成了多个部分&#xff0c;每个部分都有具体的不同含义&#xff0c;在Java中64Bit位的整数是Long类型&#xff0c;所以在Java中Snowflake算法生…

台式电脑的ip地址在哪里找

在网络连接方面&#xff0c;IP地址是非常重要的信息&#xff0c;它是用于标识网络设备的唯一地址。对于台式电脑用户来说&#xff0c;了解自己设备的IP地址是非常有必要的&#xff0c;因为它可以帮助解决网络连接问题&#xff0c;进行远程访问和共享文件等功能。本文将指导读者…

spring整合mybatis的底层原理

spring整合mybatis的底层原理 原理&#xff1a; FactoryBean的自定义对象jdk动态代理Mapper接口对象 一、手写一个spring集成mybatis 目录结构&#xff1a; 1.1 入口类 public class Test {public static void main(String[] args) {AnnotationConfigApplicationContext co…

使用一个定时器(timer_fd)管理多个定时事件

使用一个定时器(timer_fd)管理多个定时事件 使用 timerfd_xxx 系列函数可以很方便的与 select、poll、epoll 等IO复用函数相结合&#xff0c;实现基于事件的定时器功能。大体上有两种实现思路&#xff1a; 为每个定时事件创建一个 timer_fd&#xff0c;绑定对应的定时回调函数…

7-205 神奇的循环

通过自己双手写出来的代码真的很有成就感 我们知道&#xff0c;在编程中&#xff0c;我们时常需要考虑到时间复杂度&#xff0c;特别是对于循环的部分。例如&#xff0c; 如果代码中出现 for(i1;i<n;i) OP ; 那么做了n次OP运算&#xff0c;如果代码中出现 for(i1;i<n; i)…

Android音量调节修改

前言 今日公司&#xff0c;安卓设备的音量显示不正常&#xff0c;让我来修复这个bug&#xff0c;现在已修复&#xff0c;做个博客&#xff0c;记录一下&#xff0c;以后碰到类似一下子就好解决。 Android音量调节相关 路径 frameworks\base\services\core\java\com\android…