一云多芯,智能化转型的下一个工程化挑战

进入2023年,产业数字化和智能化转型升级进入了大规模工程化落地阶段。根据中国信通院《中国数字经济发展研究报告(2023)》,数字经济已经占我国GDP比重达到41.5%,相当于第二产业占国民经济的比重。随着产业数字化和智能化程度的提升,算力服务越来越成为数字经济的底座。中国信通院测算,算力每投入1元,将带动3至4元的GDP经济增长。

所谓算力服务,即以多样性算力为基础,以算力网络为连接,以供应有效算力为目标的算力产业。中国信通院指出,目前算力服务供应形态主要以云服务为主,同时超算、智算和社会闲散算力等多样算力的任务式供给形态,也在积极探索与试验过程中。而云计算作为数字世界操作系统,云服务正在统筹超算、智算和普算而成为算力输出的主要界面。

芯片是算力的基础。为了解决当前在算力建设过程中出现的多芯局面,“一云多芯”理念逐渐获得了广泛的关注。作为国内领先的私有云厂商之一,浪潮云海首席科学家张东在2023中国算力大会上强调,“一云多芯”将成为云计算平台的核心能力之一,不仅是芯与云的融合,更是平台+生态的协同。“一云多芯”将有效解决智能化转型过程中的工程化挑战,以多样化算力帮助政企用户实现可持续的智能化。

算力成为智能化新基建

2023年大模型的爆火将算力基础设施推向新基建的风口浪尖。根据OpenAI发布的《AI and Compute》分析报告,自2012年以来,AI训练应用的算力需求每3.4个月就会翻倍,从 2012年至今,AI算力增长超过了30万倍。根据OpenAI,ChatGPT的总算力消耗约为3640PF-days,相当于当前一座超大城市总算力的3倍。

根据IDC与浪潮信息联合发布《2022-2023 中国人工智能计算力发展评估报告》,IDC预测,中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,未来五年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。在算力投资中,城市智能算力的投入已经成为推动区域数字经济发展的重要支撑,而2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造,行业AI渗透度明显提升。

(浪潮云海首席科学家张东)

浪潮云海首席科学家张东强调,未来是智能化竞争,必须从信息化走向智能化,否则将完全落后于时代的发展,而智算中心就是未来的新基建。新基建的意义不仅在于可提供商业化服务,更是面向城市的公益性社会基础设施服务,在满足像大模型训练这样任务性的智算需求外,也可将算力资源开放给社会使用,从而广泛培养智能化人才和生态。

在2023中国算力大会现场,浪潮信息展示了目前业界领先的智算中心。该智算中心是一个预制化的、模块化的智算中心,集计算、存储、网络和算力调度于一体,覆盖不同的计算节点兼容国内外主流的CPU和异构加速芯片,可以支撑自动驾驶、生物制药、AIGC、智能制造等多样的应用,这样的一套数据中心可以实现两周内的交付,目前已经落地济南、南京、宿州等多个地区,为区域智能化新基建提供了建设新思路、新路径。

算力之上:标准化云操作系统

正如同当年的PC,之所以能够实现“全世界每一张桌子上都有一台PC”, 关键在于对于各国不同软件和硬件生态的兼容。目前,不同算力的主要对外输出界面就是云服务,那么提高云操作系统的兼容性就是实现算力服务普惠化、泛在化和标准化的关键。随着AI的发展,我们正从以CPU为中心,向GPU、DPU、XPU等多种加速计算芯片共存的算力体系发展,如何让云操作系统兼容多种芯片和指令集以及适配各种上层软件,就成为下一个挑战。

浪潮云海首席科学家张东强调,“一云多芯”要解决不同类型芯片共存所带来的多云管理问题,真正形成一朵云。“一云多芯”将成为IT产业链承上启下的关键环节,对下纳管底层各种芯片、操作系统,对中兼容各种类型的虚拟机、容器、数据库、中间件,对上适配各类云原生应用和软件,从而成为未来云计算平台的核心能力之一。

众所周知,业务应用软件或SaaS服务,需要面对芯片、操作系统、数据库等多种软硬件组合环境,在不同环境中开发、测试并在实际业务中验证和迭代。而在今天的多芯时代,随着各国和各厂商不断发展各自的芯片,可选处理器的范围越来越大,对于云操作系统的适配要求越来越高。但各芯片厂商都有着各自的标准,都希望拉动自有生态,导致云数据中心中各服务器芯片表现参差不一、用户体验难以一致、应用效果大相径庭,进而形成算力孤岛。

因此,“一云多芯”的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。换言之,就需要实现应用与芯片架构的彻底解耦,支持应用在不同架构处理器间的等价切换。当然,这首先就需要对于不同芯片算力的统一测算,例如某厂商一个GPU的算力能够对等替换另一厂商多少个GPU的算力,需要达成业界共识;其次,还需要硬件、云和应用等产业链上下游的协同,实现应用层面的跨架构无感知切换;第三,对于开发工具来说,还无法做到完全架构无关,无论是Python或Java所编写出的应用,或多或少都与架构相关,因此需要推动应用开发与架构无关,将相关调用剥离到云操作系统层面处理;第四,数据与应用的分离,将数据层完全隔离,实现架构无关。

整体来看,“一云多芯”看似简单却是一个工程量极大的挑战,用好“一云多芯”就可以最大程度地降低技术路线选择风险,极大提升业务稳定性以及业务改造的灵活性,但要真正实现“一云多芯”却需要整个产业和生态具有共同的信念和决心,将“一云多芯”从标准、架构、测评、测试、开发等多个环节落实下去,真正打破不同架构的算力孤岛、实现不同架构之间的互连互通,而不是纳管不同芯片架构资源池的简单模式。

算力融合:“一云多芯”三步走

云操作系统对于不同芯片、芯片架构和应用软件的兼容,这是一个庞大的全生态的工程。在企业IT技术历史上,无论是VMware的虚拟化软件或是Oracle的数据库,企业IT软件的隐藏核心竞争力其实都是广泛的兼容性。但就像VMware与Oracle等兼容性工程都是由一家厂商主导并耗费多年的时间和投入才逐步实现的,更为重要的是当VMware和Oracle等软件的市场领导地位获得认可后,整个生态都会向VMware和Oracle等软件主动进行兼容。

对于发展历史尚短的云操作系统来说,无法在短时间内真正实现广泛的兼容性。浪潮信息是“一云多芯”的积极倡导者之一,作为独立于芯片、云和生态的第三方厂商,提出了“以应用导向、以系统为中心”、“分层解耦、开放标准”、“迭代创新、持续演进”的一云多芯发展理念,特别是务实地提出了三阶段推进策略,从而实现“一云多芯”的最终目标。

所谓“三阶段”推进策略,即:在第一阶段,实现异构节点统一池化管理,通过离线迁移、手动切换等方式实现应用跨架构,这就是“混合部署、统一管理、统一视图”,解决一云多芯“有”的问题;在第二阶段,在资源层、平台层和应用层实现分层解耦,厂商共同配合实现应用平滑切换及弹性伸缩,这就是“业务迁移、分层解耦、架构升级”,解决一云多芯“好”用的问题;在第三阶段,实现产业链上下游协同配合,打造标准、共同生态,打造垂直一体化方案,这就是“软件定义、算力标准、全栈多芯”,解决化一云多芯“优”化的问题。

张东表示,当前还处于“一云多芯”的第一个阶段,不少厂商或多或少都已经实现了不同程度的第一阶段“一云多芯”,接下来就是要攻坚第二阶段,即在资源层、平台层和应用层实现分层解耦。为此,浪潮信息在前不久推出了融合架构3.0原型机,也就是在服务器整机层面实现彻底的硬件资源解耦。融合架构3.0突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。

融合架构3.0原型机打破了以往“以CPU为中心”的设计理念,从整体出发、以系统为中心,通过硬件解耦将异构计算、内存、存储等资源转变为可独立扩展的资源池,用户可以根据应用需求实现资源的自由扩展。例如,大模型的训练需要更多的显存,但GPU卡带有的显存容量有限,在融合架构3.0的设计下,就可以将系统中的所有内存、显存都打通,极大扩展大模型训练可用的内存,同时也降低了对于GPU的需求。

云海Incloud OS面向“一云多芯”在进行第二阶段改进,特别是在平台层和应用层推进解耦工作。作为Incloud OS的核心技术,根据Gartner的报告,云海服务器虚拟化系统Incloud Sphere连续两年获得国内品牌中国市场份额第一,目前居全球市场份额前四。InCloud Sphere可实现对x86、ARM等多元异构芯片的计算资源池化,最新版本可同时提供针对四种不同架构处理器的统管能力,进一步降低了用户对不同架构基础设施的维护难度。

为了创建了以“一云多芯”为核心的云平台参考基准,前不久云海OS完成了目前业界首个面向“一云多芯”场景的SPEC Cloud基准测试,并在三种处理器节点混合部署集群测试中,相对可扩展性、平均实例配置时间等指标均达到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。同时,浪潮信息积极参加了由中国信通院牵头制定的《一云多芯技术能力标准体系》,并且云海OS以优异成绩通过一云多芯IaaS平台能力评估,获得“先进级”最高等级认证。

浪潮信息对于“一云多芯”的执着追求来自实际的客户需求。云海OS是业内最早支持“一云多芯”,拥有丰富的行业应用落地经验的。从2018年开始,浪潮信息依托云海OS帮助政府、金融、能源、交通等行业的数百家客户打造了“一云多芯”行业云,例如云海OS助力某省构建了国内规模最大、芯片种类最多的省级政务云平台,覆盖近2000台、三种架构处理器的服务器,并全面集成了基础软硬件、云平台、安全系统、运维管理系统、应用系统等。

整体而言:“一云多芯”是算力服务和云操作系统在全球芯片格局动荡和供应链不确定时期的应对之道,也是基于开源技术的云操作系统在发展到一定成熟阶段后的必由之路。相对于传统的服务器虚拟化软件,云操作系统遇到了更为复杂的多芯环境,需要同时面对多种成熟和发展中的芯片技术路线,这对于云操作系统的产品成熟度提出了更高的要求,也倒逼云操作系统厂商进行原始创新,走出独立创新之路。“一云多芯”也将从长期保障中国智能化的可持续发展,在全球智能化竞争中建立核心竞争力。(文/宁川)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/86669.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】 LinkedList的模拟实现与使用

文章目录 🍀什么是LinkedList🌴LinkedList的模拟实现🚩创建双链表🚩头插法🚩尾插法🚩任意位置插入🚩查找关键字🚩链表长度🚩打印链表🚩删除第一次出现关键字为…

YOLOv5+deepsort实现目标追踪。(附有各种错误解决办法)

一、YOLOv5算法相关配置 🐸这里如果是自己只想跑一跑YOLOV5的话,可以参考本章节。只想跑通YOLOv5+deepsort的看官移步到下一章节。 1.1 yolov5下载 🐸yolov5源码在github下载地址上或者Gitee上面都有。需要注意的是由于yolov5的代码库作者一直在维护,所以下载的时候需…

【Unity小技巧】Unity探究自制对象池和官方内置对象池(ObjectPool)的使用

文章目录 前言不使用对象池使用官方内置对象池应用 自制对象池总结源码参考完结 前言 对象池(Object Pool)是一种软件设计模式,用于管理和重用已创建的对象。在对象池中,一组预先创建的对象被维护在一个池中,并在需要时…

OJ练习第152题——分割回文串 II

分割回文串 II 力扣链接:132. 分割回文串 II 题目描述 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是回文。 返回符合要求的 最少分割次数 。 示例 Java代码 class Solution {public int minCut(String s) {int n s.leng…

听说你还不知道什么是python?本文将带你发掘python的魅力并让你爱上他

文章目录 前言什么是pythonpython的由来我们为什么要学习python帮助python学习的网站总结 前言 各位朋友们,大家好。龙叔我后台经常收到私信问什么是Python?有必要学习这门语言么?今天,将通过本文告知大家Python是什么&#xff1…

浅谈日常使用的 Docker 底层原理-三大底座

适合的读者,对Docker有过简单了解的朋友,想要进一步了解Docker容器的朋友。 前言 回想我这两年,一直都是在使用 Docker,看过的视频、拜读过的博客,大都是在介绍 Docker 的由来、使用、优点和发展趋势,但对…

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动 0、背景1、基本环境2、开发环境编译Qt MySql数据库驱动2.1 依赖说明2.2 MySQL驱动编译过程 3、交叉编译Qt MySql数据库驱动3.1 依赖说明3.3.1 如何在交叉编译服务器上找到mysql.h及相关头文件3.3.2 如果…

【PHP】基础语法变量常量

文章目录 PHP简介前置知识了解静态网站的特点动态网站特点 PHP基础语法代码标记注释语句分隔(结束)符变量变量的基本概念变量的使用变量命名规则预定义变量可变变量变量传值内存分区 常量基本概念常量定义形式命名规则使用形式系统常量魔术常量 PHP简介 PHP定义:一…

【服务器】Strace显示后台进程输出

今天有小朋友遇到一个问题 她想把2331509和2854637这两个进程调到前台来,以便于在当前shell查看这两个python进程的实时输出 我第一反应是用jobs -l然后fg (参考这里) 但是发现jobs -l根本没有输出: 原因是jobs看的是当前ses…

Oracle Database12c数据库官网下载和安装教程

文章目录 下载安装Oracle自带的客户端工具使用 下载 进入oracle官网 点击下载连接之后右上角会有一个下载 我们只需要数据库本体就够了 运行这个下载器 等待下好之后即可 出现 Complete 之后代表下载成功,然后我们解压即可 安装 双击 双击setup.exe 根据…

NLP | 基于LLMs的文本分类任务

比赛链接:讯飞开放平台 来源:DataWhale AI夏令营3(NLP) Roberta-base(BERT的改进) ①Roberta在预训练的阶段中没有对下一句话进行预测(NSP) ②采用了动态掩码 ③使用字符级和词级…

引领行业高质量发展|云畅科技参编《低代码开发平台创新发展路线图(2023)》

8月8日-9日,中国电子技术标准化研究院于北京顺利召开《低代码开发平台创新发展路线图(2023)》封闭编制会。云畅科技、浪潮、百度、广域铭岛等来自低代码开发平台解决方案供应商、用户方、科研院所等近30家相关单位的40余位专家参与了现场编制…

android studio gradle build running慢 卡住不动 失败 原因与解决方式

快速导航 分析原因解决办法 分析原因 主要原因是 gradle 构建时无法从网络获取需要的包或库。 解决办法 将国外库替换为阿里云镜像库。 例如 google 对应的库是 maven { url ‘https://maven.aliyun.com/repository/google’ }

基于决策树(Decision Tree)的乳腺癌诊断

决策树(DecisionTree)学习是以实例为基础的归纳学习算法。算法从--组无序、无规则的事例中推理出决策树表示形式的分类规则,决策树也能表示为多个If-Then规则。一般在决策树中采用“自顶向下、分而治之”的递归方式,将搜索空间分为若千个互不相交的子集,在决策树的内部节点(非叶…

容灾双活方案,异地容灾备份与双活

数据信息的安全性和完整性面临着硬件问题、病毒入侵、自然灾害等各种威胁。为了应对这些威胁,公司需要采取有效的数据保护措施,其中特别重要的是外部容灾备份和双活技术。  让我们来看看其他地方的容灾备份。这是一种可以将数据复制到避免初始区域的设…

IO day 7

1、使用消息队列完成两个进程间相互通信 msgsnd #include <myhead.h>typedef struct {long msgtype;char data[1024]; }Msg_ds;#define SIZE sizeof(Msg_ds)-sizeof(long)int main(int argc, const char *argv[]) {//创建key值key_t key;if((key ftok("/",k…

物通博联嵌入式数据采集网关采集传感器的数据上传到云端

在当今的物联网&#xff08;IoT&#xff09;时代&#xff0c;各种传感器广泛应用于各种工业领域。传感器数据采集是实现自动化生产的基础&#xff0c;可以为企业决策提供科学的数据支持&#xff0c;通过各类智能传感器采集传输终端&#xff0c;将采集的传感器数据实时传输到设备…

如何将应用程序发布到 App Store

憧憬blog主页 在强者的眼中&#xff0c;没有最好&#xff0c;只有更好。我们是移动开发领域的优质创作者&#xff0c;同时也是阿里云专家博主。 ✨ 关注我们的主页&#xff0c;探索iOS开发的无限可能&#xff01; &#x1f525;我们与您分享最新的技术洞察和实战经验&#xff0…

电工-学习电工有哪些好处

学习电工有哪些好处&#xff1f;在哪学习电工&#xff1f; 学习电工有哪些好处&#xff1f;在哪学习电工&#xff1f;学习电工可以做什么&#xff1f;优势有哪些&#xff1f; 学习电工可以做什么&#xff1f;学习电工有哪些好处&#xff1f; 就业去向&#xff1a;可在企业单位…

docker 03(docker 容器的数据卷)

一、数据卷的概念和作用 删除后&#xff0c;数据也没了。 不能 数据卷 是宿主机中的一个目录或文件当容器目录和数据卷目录绑定后&#xff0c;对方的修改会立即同步一个数据卷可以被多个容器同时挂载 作用&#xff1a; 容器数据持久化 外部机器和容器间接通信 容器之间数据交换…