Colossal AI 多维TP

Colossal AI 多维TP

1. 2D TP

1.1. SUMMA 2D 矩阵乘法

在这里插入图片描述
在这里插入图片描述
数值示例:
在这里插入图片描述
在这里插入图片描述

条件:每个矩阵都可以均匀的拆分为 p=q^2块(行q块,列q块·)

1.2. Transformers上的应用

b: batch size s: seq_len h: hidden size p: GPUs q: p=q^2
输入shape为{b, s, h}{bs, h}{bs/q, h/q},实际使用时将b和h进行拆分,如下图所示。
在这里插入图片描述
在这里插入图片描述

通信量和计算量对比(包含activation checkpointing)
在这里插入图片描述

性能对比
1)Weak scaling concerns the speedup for a scaled problem size with respect to the number of processors
在这里插入图片描述
2)Strong scaling concerns the speedup for a fixed problem size with respect to the number of processes
在这里插入图片描述
3)memory performance
在这里插入图片描述
注:测试环境
4 NVIDIA Quadro RTX 5000 GPUs on each node, and nodes are inter-connected with Mellanox InfiniBand

2. 2.5D TP

2.1. Tesseract 矩阵乘法:将一个矩阵乘法拆分为多个SUMMA 2D矩阵乘法

在这里插入图片描述
数值示例
在这里插入图片描述
在这里插入图片描述

2.2. Transformers上的应用

在这里插入图片描述

性能对比:
1) Weak scaling
在这里插入图片描述
2) Strong scaling
在这里插入图片描述
注:4 NVIDIA A-100 GPUs per node

2.3. 对比和结论(C=AB)

在这里插入图片描述
1) 当d=1时,即为SUMMA 2D 的矩阵乘法。
2) 2D和2.5D不仅拆分了B,还拆分了A。
3) 2.5D中,p=dq^2。
4) 2.5D相对于2D而言,通过把B复制了d份来减少通信次数。
5) P=dq^2固定的情况下,不同的{d,q,q}配置性能相差甚远。

3. 3D TP

3.1. 算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2. Transformers上的应用

在这里插入图片描述
1) 输入在 {b,s,h} 三个维度上都进行拆分。
2) 参数在in_size上按p拆分,out_size按p^2拆分。
3) XA后都有一个reduce-scatter操作。

性能对比:
1) Weak scaling
在这里插入图片描述
2)Strong scaling
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/528414.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

查分约束学习

问题模型&#xff1a; 有n个变量&#xff1a;&#xff0c;有m个约束条件 令差分数组&#xff0c;可以知道如果x1x2<q&#xff0c;那么与j和i-1有关联 由画图可知&#xff0c;如果有在i-1至j建立的有向图中跑最短路&#xff0c;那么dis[n]即为最小的约束变量 另外&#x…

数据库(mysql)-基础知识点-2

子查询 MySQL中的子查询&#xff08;Subquery&#xff09;是嵌套在其他SQL查询中的查询。子查询可以出现在SELECT、FROM或WHERE子句中&#xff0c;并用于返回将被用于外部查询的数据。子查询的结果可以是一个单一的值、一行、一列或多行多列的数据集。 单行单列查询 实例 #查…

Prompt提示工程上手指南:基础原理及实践(五)-思维树 (ToT)策略下的Prompt

前言 此篇文章已经是本系列的第五篇文章&#xff0c;之前我们已经将检索增强生成(RAG)策略&#xff0c;逐渐我们掌握的知识和技术都在不断提高&#xff0c;对于Prompt的技巧策略也不能只局限于局部运用而要适应LLM大模型的整体框架去进行改进休整。较为主流的LLM模型框架设计基…

Ubuntu16.04更新python3版本

对于初次接触更新ubuntu python版本的开发者&#xff0c;请注意以下两点&#xff08;熟悉系统者请随意&#xff09;&#xff1a; 不要删除软链接&#xff01;不要删除软链接&#xff01;不要删除软链接&#xff01; 不要删除原python版本&#xff01;不要删除原python版本&am…

基于SSM+Jsp+Mysql的高校毕业设计管理系统

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

MySQL-10. 存储引擎、视图、mysql管理

10.1 存储引擎 存储引擎说白了就是如何存储数据、如何为存储的数据建立索引和如何更新、查询数据等技术的实现方法。因为在关系数据库中数据的存储是以表的形式存储的&#xff0c;所以存储引擎也可以称为表类型&#xff08;即存储和操作此表的类型&#xff09;。 存储引擎(Stor…

关于GNSS硬件延迟初步学习,电离层提取

1、卫星端偏差分为频间和频内偏差&#xff08;inter or intra frequency&#xff09;&#xff0c;下面以GPS的C1C和C2W组合为例分析对PPP解算的影响&#xff1a; 如果不改正卫星端的inter-frequency&#xff08;即&#xff1a;C1C-C1W&#xff09;偏差&#xff08;因为每颗卫星…

基于springboot实现校园资料分享平台系统项目【项目源码+论文说明】

基于springboot实现校园资料分享平台系统演示 摘要 随着信息互联网购物的飞速发展&#xff0c;国内放开了自媒体的政策&#xff0c;一般企业都开始开发属于自己内容分发平台的网站。本文介绍了校园资料分享平台的开发全过程。通过分析企业对于校园资料分享平台的需求&#xff…

SSM项目转Springboot项目

SSM项目转Springboot项目 由于几年前写的一个ssm项目想转成springboot项目&#xff0c;所以今天倒腾了一下。 最近有人需要毕业设计转换一下&#xff0c;所以我有时间的话可以有偿帮忙转换&#xff0c;需要的私信我或&#xff0b;v&#xff1a;Arousala_ 首先创建一个新的spr…

快速恢复1对共阴极二极管ER1006F 特点与应用,你必须看的好文章~

ER1006F是一款二极管&#xff0c;ER1006F是款正向电流为 10A&#xff0c;反向电压为600V的二极管。它的正向压降为1.05V&#xff0c;反向电流为10μA。这些参数使得ER1006F在很多应用中都非常适用。 首先&#xff0c;正向电流是指电流从二极管的阳极流向阴极的电流。ER1006F的正…

操作系统知识

根据希赛相关视频课程汇总整理而成&#xff0c;个人笔记&#xff0c;仅供参考。 操作系统概述 *进程管理 进程&#xff1a;程序在一个数据集合上运行的过程&#xff0c;它是系统进行资源分配和调度的一个独立单位。由程序块、进程控制块&#xff08;PCB&#xff09;和数据块三…

龙蜥社区「人人都可以参与开源」——参与心得

一、初识龙蜥 参加龙蜥社区的体验&#xff0c;犹如走进了一个满载知识宝藏的科技殿堂&#xff0c;它不仅集结了国内外对开源操作系统技术抱有热忱的高手&#xff0c;更是一个不断孕育创新理念与实践成果的孵化器。在这里&#xff0c;每一刻都充满启迪&#xff0c;每一步都伴随…

AI创作出来的图,有没有版权?总结了三派观点,你觉得呢?

关于这个问题分成了三派&#xff0c;老铁们可以忽略图片&#xff0c;认真思考版权这个问题。 一、无版权派 因为按照我国目前对版权的定义著作权&#xff1a;是指自然人、法人或者其他组织对文学、艺术和科学作品享有的财产权利和精神权利的总称。那么AI既不属于自然人也不属…

2月珍珠饰品电商数据分析:价格翻倍,销售额暴增140%!

珍珠饰品这两年受到国内消费者的追捧&#xff0c;这股热潮随着电商直播的快速发展延续至今。与此同时&#xff0c;年轻人群体正成为珍珠消费的主力军&#xff0c;他们在各大直播间频繁亮相&#xff0c;以实际购买力展现了对珍珠饰品的热爱与追捧。 今年2月份&#xff0c;珍珠饰…

从入门到精通:系统性学习Linux虚拟网络设备的全面指南

学习一个从未接触过的Linux虚拟网络设备是一个分阶段的过程&#xff0c;从最初的认识到最后的精通&#xff0c;需要系统性和逐步深入的学习策略。以下是一个全面的指南&#x1f4da;&#xff0c;旨在帮助初学者通过多角度分析&#x1f50d;&#xff0c;一步一步地学习和掌握新的…

GlusterFS分布式文件系统

一、GlusterFS简介 GlusterFS 是一个开源的分布式文件系统。由存储服务器、客户端以及NFS/Samba存储网关(可选&#xff0c;根据需要选择使用)组成。没有元数据服务器组件&#xff0c;这有助于提升整个系统的性能、可靠性和稳定性 二、GlusterFS特点 2.1 扩展性和高性能 Glu…

【随笔】Git 基础篇 -- 分支与合并 git merge(九)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

什么是 Python 解释器

我们编写程序代码&#xff0c;就是要 让计算机 按照我们的想法 去做事 。 程序代码是用编程语言编写的&#xff0c;而 Python 语言&#xff0c; 是计算机硬件&#xff08;主要是 CPU&#xff09;听不懂的语言。 计算机 CPU 只能听懂 机器指令。 所以&#xff0c;我们需要一个…

(学习日记)2024.04.08:UCOSIII第三十六节:事件

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

本地MinIO存储服务通过Java程序结合cpolar实现远程连接上传文件

文章目录 前言1. 创建Buckets和Access Keys2. Linux 安装Cpolar3. 创建连接MinIO服务公网地址4. 远程调用MinIO服务小结5. 固定连接TCP公网地址6. 固定地址连接测试 前言 MinIO是一款高性能、分布式的对象存储系统&#xff0c;它可以100%的运行在标准硬件上&#xff0c;即X86等…