元脑服务器的创新应用:浪潮信息引领AI计算新时代

浪潮信息的元脑 R1 服务器现已全面支持开源框架 SGLang,能够在单机环境下实现 DeepSeek 671B 模型的高并发性能,用户并发访问量超过1000。通过对 SGLang 最新版本的深度适配,元脑 R1 推理服务器在运行高性能模型时,展现出卓越的处理能力,满足了现代AI应用对算力的严苛要求。
在这里插入图片描述

DeepSeek R1参数量达到6710亿,采用了MLA注意力机制和共享专家、路由专家共同组成的混合专家(MoE)架构,其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从AI服务器和推理框架入手开展了协同优化工作。

元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,完美契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现极致加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行最佳通讯性能。

SGLang是新兴的开源推理框架项目,其得到活跃的社区支持,并在工业界获得了广泛应用。SGlang的核心特性包括:快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang针对MLA注意力机制开展了针对性的工程优化,并在框架上对MoE架构的推理做了优化设计。SGLang也是最早适配DeepSeek v3和R1的优选推理框架之一。

目前,元脑R1推理服务器 NF5688G7已完成SGLang最新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。
在这里插入图片描述

单路并发性能测试日志,根据TPOT换算用户解码性能为33.3 tokens/s

DeepSeek R1 671B是一个稀疏度较高的MoE架构模型,具有模型参数量大、计算量小的特点。和Dense模型相比,在满足KV cache的显存占用的前提下,可以支持更高的并发访问需求。实测数据表明,基于单台NF5688G7,在使用DeepSeek R1进行带思维链深度思考的短输入长输出的问答场景下,使用100/1000作为输入输出长度,实测在单个用户并发时的解码性能为33.3tokens/s;在16个用户并发时,每个用户有约20 tokens/s的解码性能;在64个用户并发时,每个用户有约10.4 tokens/s的解码性能。而在使用1024个用户并发访问的极限测试时,单台NF5688G7实现了3975.76 tokens/s的吞吐性能,可以满足超高并发场景下多用户使用需求。

在这里插入图片描述

1024路并发性能测试日志,测试使用了1000/1000的输入输出长度,实现了3975.76 tokens/s的总设备吞吐

浪潮信息团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案,助力大模型快速落地应用。

浪潮信息团队与行业内的合作伙伴紧密协作,持续在计算架构、算子优化、并行策略及框架适配等多个领域进行创新,旨在为用户提供高效、稳定且具性价比的 DeepSeek 大模型部署服务。作为全球领先的 IT 基础设施产品和服务提供商,浪潮信息致力于通过元脑服务器推动人工智能的快速发展与应用落地,构建开放、绿色的智能计算生态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/983861.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥备赛(13)- 链表和 list(下)

一、动态链表 - list (了解) new 和 delete 是非常耗时的操作 在算法比赛中,一般不会使使用 new 和 delete 去模拟实现一个链表。 而且STL 里面的 list 的底层就是动态实现的双向循环链表,增删会涉及 new 和 delete,效率不高,竞赛…

【VUE2】第二期——生命周期及工程化

目录 1 生命周期 1.1 介绍 1.2 钩子 2 可视化图表库 3 脚手架Vue CLI 3.1 使用步骤 3.2 项目目录介绍 3.3 main.js入口文件代码介绍 4 组件化开发 4.1 组件 4.2 普通组件注册 4.2.1 局部注册 4.2.2 全局注册 1 生命周期 1.1 介绍 Vue生命周期:就是…

正则表达式梳理(基于python)

正则表达式(regular expression)是一种针对字符串匹配查找所定义的规则模式,独立于语言,但不同语言在实现上也会存在一些细微差别,下面基于python对常用的相关内容进行梳理。 文章目录 一、通用常识1.通配符ps.反义 2.…

《C++ 构造、拷贝构造与析构函数:对象的诞生、克隆与消逝之旅》

类的6个默认成员函数 构造函数 是对一个对象实例化时的初始化 例如在C语言中写的堆的时候要初始化StackInit,而c祖师爷写的构造函数本质上就是自动调用初始化。 构造函数默认构造函数自己写的(符合规定的显示表达式) 注:一般情况下…

使用服务器搭建无门槛ChatGPT WEB应用LobeChat

一、服务器实例配置 ‌实例选型‌ ‌推荐配置‌:‌2核4GB内存‌,保障AI推理和并发访问的流畅性‌67。‌操作系统‌:选择 ‌Ubuntu 22.04 LTS‌,适配Docker环境与LobeChat依赖库‌23。‌安全组规则‌:开放以下端口&…

C/S架构与B/S架构

一、定义与核心区别 C/S架构(Client/Server,客户端/服务器) 客户端需安装专用软件(如QQ、企业ERP系统),直接与服务器通信。服务器端通常包括数据库和业务逻辑处理1。特点:客户端承担部分计算任务…

鸿蒙Next-应用检测、安装以及企业内部商店的实现

一、企业内部应用检测和更新升级 A应用检测是否安装B应用 canOpenApp():boolean{ try { let link schB://com.example.test/open; // 替换成你目标应用的link串儿 let canOpen bundleManager.canOpenLink(link); console.log("canOpen:"canOpen…

车载网络测试-DBC文件解读

目录 1 背景2 DBC结构2.1 Networks2.2 ECUs(Electronic Control Units)2.3 Network Nodes2.4 Message(报文)2.4.1 Message定义、作用、示例2.4.2 报文Attribute(属性)2.4.2.1 常见的报文Attributes2.4.2.2 …

《A++ 敏捷开发》- 18 软件需求

需求并不是关于需求 (Requirements are not really about requirements) 大家去公共图书馆寄存物品,以前都是扫二维码开箱,有些图书馆升级了使用指纹识别。 “是否新方法比以前好?”我问年轻的开发人员。 “当然用指纹识别好。新技术&#x…

SQL经典查询

查询不在表里的数据,一张学生表,一张学生的选课表,要求查出没有选课的学生? select students.student_name from students left join course_selection on students.student_idcourse_selection.student_id where course_selecti…

大语言模型进化论:从达尔文到AI的启示与展望

文章大纲 引言大语言模型中的“进化论”思想体现遗传变异过度繁殖和生存斗争大模型“过度繁殖”与“生存竞争”机制解析**一、过度繁殖:技术迭代的指数级爆发****二、生存竞争:计算资源的达尔文战场****三、生存竞争胜出关键要素****四、行业竞争格局演化趋势**核心结论自然选…

SSM架构 +Nginx+FFmpeg实现rtsp流转hls流,在前端html上实现视频播放

序言: 本文介绍通过SSM架构 NginxFFmpeg实现rtsp流转hls流,在前端html上实现视频播放功能。此方法可用于网络摄像头RTSP视频流WEB端实时播放。(海康和大华都可以),我使用的是海康 步骤一:安装软件 FFmpeg…

Hadoop管理页看不到任务的问题

这个yarn分配任务了但是为空 在$HADOOP_HOME/conf/mapred-site.xml 原来的配置文件基础之上添加&#xff1a; <property><name>mapreduce.framework.name</name><value>yarn</value></property> 重启之后就好了

腾讯云TBDS获金融信创实验室全项适配认证 打造国产化大数据平台标杆

点击蓝字⬆ 关注我们 本文共计1605字 预计阅读时长5分钟 近日&#xff0c;腾讯云大数据套件软件TBDS V5.3、数据仓库TCHouse V3.0通过金融信创生态实验室&#xff08;以下简称“实验室”&#xff09;的适配验证。 本测试基于典型金融业务场景&#xff0c;在全信创环境下&#x…

人工智能神经网络基本原理

MP 神经元数学模型 MP 模型是神经网络领域的早期模型&#xff0c;它模仿了神经元的基本结构和工作原理。 人工神经元是一个多输入、单输出的信息处理单元&#xff0c;是对生物神经元的建模。建模方式可以有很多种&#xff0c;不同的建模方式就意味着不同的人工神经元结构。 比…

WSL + 4050 部署 Deepseek-7B 蒸馏模型

操作环境&#xff1a;WSL - Oracle Linux RTX 4050 Laptop edition 渣渣笔记本实在是跑不了更大模型了&#x1f602; 整体架构 WSL 配置显卡加速环境 总体流程 安装教程&#xff1a;https://zhuanlan.zhihu.com/p/681092042 总体流程&#xff1a; 优化 WSL 系统配置&#x…

C++入门——输入输出、缺省参数

C入门——输入输出、缺省参数 一、C标准库——命名空间 std C标准库std是一个命名空间&#xff0c;全称为"standard"&#xff0c;其中包括标准模板库&#xff08;STL&#xff09;&#xff0c;输入输出系统&#xff0c;文件系统库&#xff0c;智能指针与内存管理&am…

简单的二元语言模型bigram实现

内容总结归纳自视频&#xff1a;【珍藏】从头开始用代码构建GPT - 大神Andrej Karpathy 的“神经网络从Zero到Hero 系列”之七_哔哩哔哩_bilibili 项目&#xff1a;https://github.com/karpathy/ng-video-lecture Bigram模型是基于当前Token预测下一个Token的模型。例如&#x…

用Deepseek写一个五子棋微信小程序

在当今快节奏的生活中&#xff0c;休闲小游戏成为了许多人放松心情的好选择。五子棋作为一款经典的策略游戏&#xff0c;不仅规则简单&#xff0c;还能锻炼思维。最近&#xff0c;我借助 DeepSeek 的帮助&#xff0c;开发了一款五子棋微信小程序。在这篇文章中&#xff0c;我将…

【Raspberry Pi 5 测评】无显示器上手指南

【Raspberry Pi 5 测评】无显示器上手指南 一、硬件开箱二、系统安装2.1 安装 Raspberry Pi Imager2.2 安装 Rasberry Pi OS 三、系统登录3.1 ping测试3.2 SSH登录 四、远程桌面4.1 启用VNC服务4.2 使用VNC客户端 五、软件安装5.1 替换软件源5.2 安装常用软件 六、参考链接 摘要…