Colossal AI 多维TP

Colossal AI 多维TP

article2025/1/23 2:19:53/文章来源:https://blog.csdn.net/fdcp123/article/details/137497084

Colossal AI 多维TP

1. 2D TP

1.1. SUMMA 2D 矩阵乘法

在这里插入图片描述

数值示例：

条件：每个矩阵都可以均匀的拆分为 p=q^2块（行q块，列q块·）

1.2. Transformers上的应用

b: batch size s: seq_len h: hidden size p: GPUs q: p=q^2
输入shape为{b, s, h}{bs, h}{bs/q, h/q}，实际使用时将b和h进行拆分，如下图所示。
在这里插入图片描述

通信量和计算量对比（包含activation checkpointing）

性能对比
1）Weak scaling concerns the speedup for a scaled problem size with respect to the number of processors

2）Strong scaling concerns the speedup for a fixed problem size with respect to the number of processes

3）memory performance

注：测试环境
4 NVIDIA Quadro RTX 5000 GPUs on each node, and nodes are inter-connected with Mellanox InfiniBand

2. 2.5D TP

2.1. Tesseract 矩阵乘法：将一个矩阵乘法拆分为多个SUMMA 2D矩阵乘法

在这里插入图片描述
数值示例

2.2. Transformers上的应用

在这里插入图片描述

性能对比：
1） Weak scaling

2） Strong scaling

注：4 NVIDIA A-100 GPUs per node

2.3. 对比和结论（C=AB）

在这里插入图片描述
1）当d=1时，即为SUMMA 2D 的矩阵乘法。
2） 2D和2.5D不仅拆分了B，还拆分了A。
3） 2.5D中，p=dq^2。
4） 2.5D相对于2D而言，通过把B复制了d份来减少通信次数。
5） P=dq^2固定的情况下，不同的{d,q,q}配置性能相差甚远。

3. 3D TP

3.1. 算法

在这里插入图片描述

3.2. Transformers上的应用

在这里插入图片描述
1）输入在 {b,s,h} 三个维度上都进行拆分。
2）参数在in_size上按p拆分，out_size按p^2拆分。
3） XA后都有一个reduce-scatter操作。

性能对比：
1） Weak scaling

2）Strong scaling

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/528414.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

$查分约束学习$

查分约束学习

问题模型： 有n个变量：，有m个约束条件令差分数组，可以知道如果x1x2<q，那么与j和i-1有关联由画图可知，如果有在i-1至j建立的有向图中跑最短路，那么dis[n]即为最小的约束变量另外&#x…

阅读更多...

数据库(mysql)-基础知识点-2

数据库(mysql)-基础知识点-2

子查询 MySQL中的子查询（Subquery）是嵌套在其他SQL查询中的查询。子查询可以出现在SELECT、FROM或WHERE子句中，并用于返回将被用于外部查询的数据。子查询的结果可以是一个单一的值、一行、一列或多行多列的数据集。单行单列查询实例 #查…

阅读更多...

Prompt提示工程上手指南:基础原理及实践(五)-思维树 (ToT)策略下的Prompt

Prompt提示工程上手指南:基础原理及实践(五)-思维树 (ToT)策略下的Prompt

前言此篇文章已经是本系列的第五篇文章，之前我们已经将检索增强生成(RAG)策略，逐渐我们掌握的知识和技术都在不断提高，对于Prompt的技巧策略也不能只局限于局部运用而要适应LLM大模型的整体框架去进行改进休整。较为主流的LLM模型框架设计基…

阅读更多...

Ubuntu16.04更新python3版本

Ubuntu16.04更新python3版本

对于初次接触更新ubuntu python版本的开发者，请注意以下两点（熟悉系统者请随意）： 不要删除软链接！不要删除软链接！不要删除软链接！ 不要删除原python版本！不要删除原python版本&am…

阅读更多...

基于SSM+Jsp+Mysql的高校毕业设计管理系统

基于SSM+Jsp+Mysql的高校毕业设计管理系统

开发语言：Java框架：ssm技术：JSPJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包…

阅读更多...

MySQL-10. 存储引擎、视图、mysql管理

MySQL-10. 存储引擎、视图、mysql管理

10.1 存储引擎存储引擎说白了就是如何存储数据、如何为存储的数据建立索引和如何更新、查询数据等技术的实现方法。因为在关系数据库中数据的存储是以表的形式存储的，所以存储引擎也可以称为表类型（即存储和操作此表的类型）。存储引擎(Stor…

阅读更多...

关于GNSS硬件延迟初步学习，电离层提取

关于GNSS硬件延迟初步学习，电离层提取

1、卫星端偏差分为频间和频内偏差（inter or intra frequency），下面以GPS的C1C和C2W组合为例分析对PPP解算的影响： 如果不改正卫星端的inter-frequency（即：C1C-C1W）偏差（因为每颗卫星…

阅读更多...

基于springboot实现校园资料分享平台系统项目【项目源码+论文说明】

基于springboot实现校园资料分享平台系统项目【项目源码+论文说明】

基于springboot实现校园资料分享平台系统演示摘要随着信息互联网购物的飞速发展，国内放开了自媒体的政策，一般企业都开始开发属于自己内容分发平台的网站。本文介绍了校园资料分享平台的开发全过程。通过分析企业对于校园资料分享平台的需求&#xff…

阅读更多...

SSM项目转Springboot项目

SSM项目转Springboot项目

SSM项目转Springboot项目由于几年前写的一个ssm项目想转成springboot项目，所以今天倒腾了一下。最近有人需要毕业设计转换一下，所以我有时间的话可以有偿帮忙转换，需要的私信我或＋v：Arousala_ 首先创建一个新的spr…

阅读更多...

快速恢复1对共阴极二极管ER1006F 特点与应用，你必须看的好文章~

快速恢复1对共阴极二极管ER1006F 特点与应用，你必须看的好文章~

ER1006F是一款二极管，ER1006F是款正向电流为 10A，反向电压为600V的二极管。它的正向压降为1.05V，反向电流为10μA。这些参数使得ER1006F在很多应用中都非常适用。首先，正向电流是指电流从二极管的阳极流向阴极的电流。ER1006F的正…

阅读更多...

操作系统知识

操作系统知识

根据希赛相关视频课程汇总整理而成，个人笔记，仅供参考。操作系统概述 *进程管理进程：程序在一个数据集合上运行的过程，它是系统进行资源分配和调度的一个独立单位。由程序块、进程控制块（PCB）和数据块三…

阅读更多...

龙蜥社区「人人都可以参与开源」——参与心得

龙蜥社区「人人都可以参与开源」——参与心得

一、初识龙蜥参加龙蜥社区的体验，犹如走进了一个满载知识宝藏的科技殿堂，它不仅集结了国内外对开源操作系统技术抱有热忱的高手，更是一个不断孕育创新理念与实践成果的孵化器。在这里，每一刻都充满启迪，每一步都伴随…

阅读更多...

AI创作出来的图，有没有版权？总结了三派观点，你觉得呢？

AI创作出来的图，有没有版权？总结了三派观点，你觉得呢？

关于这个问题分成了三派，老铁们可以忽略图片，认真思考版权这个问题。一、无版权派因为按照我国目前对版权的定义著作权：是指自然人、法人或者其他组织对文学、艺术和科学作品享有的财产权利和精神权利的总称。那么AI既不属于自然人也不属…

阅读更多...

2月珍珠饰品电商数据分析：价格翻倍，销售额暴增140%！

2月珍珠饰品电商数据分析：价格翻倍，销售额暴增140%！

珍珠饰品这两年受到国内消费者的追捧，这股热潮随着电商直播的快速发展延续至今。与此同时，年轻人群体正成为珍珠消费的主力军，他们在各大直播间频繁亮相，以实际购买力展现了对珍珠饰品的热爱与追捧。今年2月份，珍珠饰…

阅读更多...

从入门到精通：系统性学习Linux虚拟网络设备的全面指南

从入门到精通：系统性学习Linux虚拟网络设备的全面指南

学习一个从未接触过的Linux虚拟网络设备是一个分阶段的过程，从最初的认识到最后的精通，需要系统性和逐步深入的学习策略。以下是一个全面的指南📚，旨在帮助初学者通过多角度分析🔍，一步一步地学习和掌握新的…

阅读更多...

GlusterFS分布式文件系统

GlusterFS分布式文件系统

一、GlusterFS简介 GlusterFS 是一个开源的分布式文件系统。由存储服务器、客户端以及NFS/Samba存储网关(可选，根据需要选择使用)组成。没有元数据服务器组件，这有助于提升整个系统的性能、可靠性和稳定性二、GlusterFS特点 2.1 扩展性和高性能 Glu…

阅读更多...

【随笔】Git 基础篇 -- 分支与合并 git merge（九）

【随笔】Git 基础篇 -- 分支与合并 git merge（九）

💌 所属专栏：【Git】 😀 作者：我是夜阑的狗🐶 🚀 个人简介：一个正在努力学技术的CV工程师，专注基础和实战分享 ，欢迎咨询！ 💖 欢迎大…

阅读更多...

什么是 Python 解释器

什么是 Python 解释器

我们编写程序代码，就是要让计算机按照我们的想法去做事。程序代码是用编程语言编写的，而 Python 语言， 是计算机硬件（主要是 CPU）听不懂的语言。计算机 CPU 只能听懂机器指令。所以，我们需要一个…

阅读更多...

（学习日记）2024.04.08：UCOSIII第三十六节：事件

（学习日记）2024.04.08：UCOSIII第三十六节：事件

写在前面： 由于时间的不足与学习的碎片化，写博客变得有些奢侈。但是对于记录学习（忘了以后能快速复习）的渴望一天天变得强烈。既然如此不如以天为单位，以时间为顺序，仅仅将博客当做一个知识学习的目录&a…

阅读更多...

本地MinIO存储服务通过Java程序结合cpolar实现远程连接上传文件

本地MinIO存储服务通过Java程序结合cpolar实现远程连接上传文件

文章目录前言1. 创建Buckets和Access Keys2. Linux 安装Cpolar3. 创建连接MinIO服务公网地址4. 远程调用MinIO服务小结5. 固定连接TCP公网地址6. 固定地址连接测试前言 MinIO是一款高性能、分布式的对象存储系统，它可以100%的运行在标准硬件上，即X86等…

阅读更多...

最新文章