400G智算网络助力知名自动驾驶企业算力训练提效

根据Gartner的最新趋势预测,自动驾驶技术正迅速发展,预计在未来几年内将带来显著的商业效益,特别是在决策智能和边缘人工智能领域。目前,一家领军企业正积极拥抱基于大模型的数字化转型之路,作为自动驾驶领域的佼佼者,该公司正积极响应这一趋势。公司专注于智能座舱、自动驾驶技术以及网联服务,不断研发高度集成的智能硬件和前沿的软件算法,为消费者打造智能高效的综合出行方案。

当前,企业迫切需要升级自己的智算中心,以满足日益增长的算力需求。这一中心将服务于公司内部的大型模型训练,并为汽车行业的客户提供全面的自动驾驶模型解决方案。

智算网络需要满足算力训练提效需求

为了确保自动驾驶智算中心的顺利搭建和高效运作,必须综合考量硬件的高可靠性、组网方案的成本效益以及网络带宽的可扩展性。该企业提出了三项核心需求:首先,鉴于新能源汽车市场的激烈竞争,方案必须能够尽可能缩短建设周期,以快速相应市场变化。其次智算中心建设是一个长期且成本高昂的投入,因此成本控制至关重要,方案必须确保成本效益最大化。最后,考虑到智算中心的快速迭代特性,必须关注到智算网络的扩展能力,以满足企业未来业务的持续增长和发展需求。

具体来说,在硬件配置上要选用高性能、高可靠性的服务器、存储设备、网络设备以及专业的GPU集群,以满足自动驾驶算法训练对计算能力的严苛要求。在商务成本上和训练效率的双重考量下,对现有的InfiniBand(IB)网络方案进行优化至关重要,这需要全面评估IB网络方案与其他网络方案,确保在满足性能需求的同时,最大限度地降低成本。同时,为了应对未来的技术升级和扩容需求,必须预留足够的空间和容量,以确保智算中心的技术不会迅速变得过时,从而保持其长期的竞争力和市场适应性。

如何构建高速高效的自动驾驶智算中心

经过充分的验证讨论与测试,新华三智算网络解决方案能够无缝对接客户的现有系统,并在性能、可靠性和可扩展性方面媲美IB网络的标准。因此,在众多厂商中脱颖而出。

整体智算网络方案采用存算分离的双平面网络架构,该方案核心组成包含——

  • 计算网络:由42台S9825-64D数据中心交换机组成400G无损计算网;
  • 存储网络:由12台S9820-64H数据中心交换机组成100G无损存储网,支撑17个节点UniStor CX5036G6 分布式高性能并行存储。

方案采用RoCE以太网络架构,并结合创新的二层盒盒架构设计,有效满足了首期网络建设中100台高性能GPU服务器的需求,同时也预留未来扩容的能力。更成熟、效率更好的RoCE技术架构,大幅了缩短部署周期、降低训练时间,并降低成本支出,给客户更高的投资回报率。

S9825-64D数据中心交换机吞吐量测试
S9825-64D数据中心交换机吞吐量测试

在双平面网络架构的设计中,转发平面专责网络数据的传输工作,而控制平面则承担网络管理和控制信息的处理。这种架构通过两个平面的相互备份,极大提升了网络的可靠性与安全性。一旦其中一个平面发生故障,另一个平面能够立即接管其功能,确保网络的持续运行和稳定性。与此相对,单平面网络架构将所有网络功能集中在单一平面上,没有实现控制和数据转发的分离,因此在灵活性和安全性方面存在局限。显然,双平面网络架构在保障网络稳定性和安全性方面,具有显著的优势。

模型训练效率提升11.1%,加快企业大模型开发

新华三提供的RoCE智算网络方案保持了与IB网络相当的计算性能,能够让企业处理更庞大的数据量,其低延迟和高吞吐量特性,显著缩短了企业自动驾驶模型训练时间减少了10%,同时将模型训练效率提升11.1%,并加速了业务处理速度。

400G RoCE网络,为企业未来的带宽升级提供了便利。RoCE基于以太网技术,拥有成熟且广泛的生态系统,这有利于未来技术的升级和方案的演进。预计在未来两年内,数据处理能力将提升50%,而无需进行大规模的网络架构更改。此外,预计在三年内,通过节省的运营成本和提升的业务效率,在 RoCE网络上的投资将得到回收,投资回报率有望提高10%。

从部署效率角度,尽管RoCE网络同样需要手工配置,但由于以太网技术的普及和成熟,部署时间平均缩短了15%,减少了停机时间和人力成本,从而间接节约了综合成本。与IB网络相比,RoCE通常具有更低的设备和维护成本,这在控制整体商务成本方面非常有利。由于以太网组件的普遍性,替换和维护更为经济,从项目整体核算来看,RoCE网络的维护成本比IB网络低约20%

显然,400G智算网络的引入不仅提升了自动驾驶企业算力训练的效率,还为企业的未来发展提供了强大的技术支持和成本优势。随着技术的不断进步和市场需求的不断扩大,该企业有望在全球自动驾驶市场中占据更加重要的地位,为智能出行的未来贡献力量。这一变革不仅标志着自动驾驶技术的新纪元,也为整个汽车行业的发展指明了方向。通过400G智算网络的助力,企业将能够更快地开发和部署先进的自动驾驶模型,为实现更安全、更智能的出行体验奠定坚实的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/929729.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32编码器接口及编码器测速模板代码

编码器是什么? 编码器是一种将角位移或者角速度转换成一连串电数字脉冲的旋转式传感 器,我们可以通过编码器测量到底位移或者速度信息。编码器从输出数据类型上 分,可以分为增量式编码器和绝对式编码器。 从编码器检测原理上来分&#xff0…

数组常见查找算法

文章目录 时间复杂度1. 顺序查找(Linear Search)2. 二分查找(Binary Search)3. 插值查找(Interpolation Search)4.分块查找5.哈希查找 时间复杂度 衡量算法执行时间随输入规模增长而增长的速度的一个概念。…

网际协议(IP)与其三大配套协议(ARP、ICMP、IGMP)

网际协议(Internet Protocol,IP),又称互联网协议。是OSI中的网络层通信协议,用于跨网络边界分组交换。它的路由功能实现了互联互通,并从本质上建立了互联网。网际协议IP是 TCP/IP 体系中两个最主要的协议之…

CountDownLatch、Semaphore和Cyclicbarrier

文章目录 前言一、CountDownLatch1、概念2、源码3、代码示例:4、应用场景: 二、Semaphore1.概念2.源码3.代码示例4.应用场景 三、Cyclicbarrier1、简介2、源码3、代码示例4、应用场景:5、CyclicBarrier对比CountDownLatch 总结 前言 countDo…

【开源免费】基于Vue和SpringBoot的课程答疑系统(附论文)

博主说明:本文项目编号 T 070 ,文末自助获取源码 \color{red}{T070,文末自助获取源码} T070,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

Flink 中双流 Join 的深度解析与实战

目录 一、Join 算子 一)语义与特性 二)通用用法 三)不同窗口类型表现 滚动窗口 Join 滑动窗口 Join 二、CoGroup 算子 一)功能特点 二)通用用法与连接类型实现 内连接(InnerJoin) 左…

QNX的内存布局和启动入口

参考资料: QNX官网文档 内存布局 添加图片注释,不超过 140 字(可选) 查看系统内存布局 # pidin syspage=asinfo Header size=0x00000108, Total Size=0x0000d1b0, #Cpu=8, Type=257 Section:asinfo offset:0x0000bdf0 size:0x00000d00 elsize:0x000000200000

数学建模之RSR秩和比综合评价法(详细)

RSR秩和比综合评价法 一、概述 秩和比法(Rank-sum ratio,简称RSR法)是我国学者田凤调于1988年提出的,田教授是我国杰出的卫生统计学家,该方法最初提出时用于解决医学卫生领域的综合评价问题,后经各领域学者的补充和完善&#xf…

计算机网络复习6——网络层

域名系统NDS NDS是互联网的命名系统,用来把便于人们使用的机器名字转换为IP地址,作为人与机器之间的中间件 域名 域名是主机的名字 域名使用层次树状结构,由标号序列组成,各标号之间用点隔开,每个名字在互联网上是…

【PlantUML系列】类图(一)

目录 一、类 二、接口 三、抽象类 四、泛型类 五、类之间的关系 六、添加注释 七、包图 八、皮肤参数 一、类 使用class关键字定义类,类名后跟大括号,声明类的属性和方法。 属性:格式为{visibility} attributeName : AttributeType…

【AI系统】FBNet 系列

FBNet 系列 本文主要介绍 FBNet 系列,在这一章会给大家带来三种版本的 FBNet 网络,从基本 NAS 搜索方法开始,到 v3 版本的独特方法。在本节中读者会了解到如何用 NAS 搜索出最好的网络和训练参数。 FBNet V1 模型 FBNetV1:完全基于 NAS 搜…

高校数字化运营平台解决方案:构建统一的服务大厅、业务平台、办公平台,助力打造智慧校园

教育数字化是建设教育强国的重要基础,利用技术和数据助推高校管理转型,从而更好地支撑教学业务开展。 近年来,国家多次发布政策,驱动教育行业的数字化转型。《“十四五”国家信息化规划》,推进信息技术、智能技术与教育…

【JavaEE 初阶】⽹络编程套接字

一、⽹络编程基础 1.应用层 操作系统提供的一组 api >socket api(传输层给应用层提供) 2.传输层 两个核心协议. TCPUDP 差别非常大,编写代码的时候,也是不同的风格 因此, socket api 提供了两套 TCP 有连接, 可靠传输, 面向字节流, 全双工 UDP …

AI大模型驱动数据分析:利用自然语言实现数据查询与可视化(1)

在当今AI驱动的时代,数据分析已成为各行各业不可或缺的能力。然而,传统的数据分析流程通常需要掌握SQL、数据处理和可视化等多项专业技能,这对非技术背景的业务人员来说是一个不小的挑战。 想象一下,当数据中心的负责人打开手机时…

注解方式的AspectJ实现方式

BookService类 package com.hkd.service;public interface BookService {public void buyJava();public int comment();void buy(); }BookServiceImp类 package com.hkd.service;import org.springframework.stereotype.Component;Component("bs") public class Bo…

如何避免数据丢失:服务器恢复与预防策略

在当今数字时代,数据对于个人和企业来说都至关重要。数据丢失可能会导致严重的财务损失、业务中断甚至法律责任。因此,采取措施防止数据丢失至关重要。本文将讨论服务器数据丢失的常见原因以及如何防止数据丢失的有效策略。 服务器数据丢失的常见原因 服…

远程连接服务--Linux中

远程连接服务–Linux中 1. 远程连接服务器简介 1.1 什么是远程连接服务器 ​ 远程连接服务器通过文字或图形接口方式来远程登录系统,让你在远程终端前登录linux主机以取得可操作主机接口(shell),而登录后的操作感觉就像是坐在系…

Mac安装MINIO服务器实现本地上传和下载服务

0.MINIO学习文档 Minio客户端mc使用 | Elibaron学习笔记 1.Mac安装MINIO 中文官方网址:MinIO下载和安装 | 用于创建高性能对象存储的代码和下载内容 (1) brew 安装 brew install minio/stable/minio (2)安装完成,执行brew i…

鸿蒙开发——使用ArkTs处理XML文本

1、概 述 XML(可扩展标记语言)是一种用于描述数据的标记语言,旨在提供一种通用的方式来传输和存储数据,特别是Web应用程序中经常使用的数据。XML并不预定义标记。因此,XML更加灵活,并且可以适用于广泛的应…

HTML旋转爱心

系列文章 序号目录1HTML满屏跳动的爱心(可写字)2HTML五彩缤纷的爱心3HTML满屏漂浮爱心4HTML情人节快乐5HTML蓝色爱心射线6HTML跳动的爱心(简易版)7HTML粒子爱心8HTML蓝色动态爱心9HTML跳动的爱心(双心版)1…