flash attention 2论文学习

flash attention 2论文学习

article2025/2/23 5:27:47/文章来源:https://blog.csdn.net/KIDGIN7439/article/details/131927436

flash attention作者Tri Dao发布了flash attention 2，性能为flash attention的2倍。
优化点主要如下：

一、减少 non-matmul FLOPs

A00中由于tensor core的存在，使得gpu对于浮点矩阵运算吞吐很高，如FP16/BF16可以达到312 TFLOPs/s，而对于非矩阵乘的浮点运算吞吐较低，如FP32只有19.5 TFLOPs/s。因此作者调整算法以减少非矩阵乘的浮点运算。
如图1-1，基线算法计算O2的时候会对O1进行放缩，先乘上之前的sum L1，再除以新的sum L2。

在这里插入图片描述

图 1-1 但是这个其实没有必要，可以在最后一次计算只放缩一次，如图1-2。

在这里插入图片描述

图 1-2

二、并行模式

基线对于CTA的分块逻辑为启动batch_size * num_head个CTA，每个CTA执行一个batch里的一个head，那么当seq_len很长的场景，batch_size一般会比较小，这个时候无法充分利用所有的SM，所以作者调整了并行模型，一个batch里的一个head也会被多个CTA执行。
基线算法中外层循环是对K，内层循环对Q，作者交换了这个循环，对外层循环进行并发。
综合一，二之后的算法流程如图2-1

在这里插入图片描述

图 2-1

三、warp分块

基线warp分块如图3-1，一个CTA所有warp都load Q，但是对K分块，这个时候计算S和P并没有啥问题，但是对计算O的时候，会导致warp之间对O执行一次reduce sum。

在这里插入图片描述

图 3-1 因此作者调整了warp分块逻辑，如图3-2所示，对Q进行分块，每个warp都load K和V，以避免最后对O的reduce。

在这里插入图片描述

图 3-2

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/44611.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

LINUX中的myaql（一）安装

LINUX中的myaql（一）安装

目录前言一、概述二、数据库类型三、数据库模型四、MYSQL的安装 （一）yum安装MYSQL （二）rpm安装MYSQL 五、MYSQL本地登录 rpm安装MYSQL本地登录六、重置密码总结前言 MySQL是一种常用的开源关系型数据库管理系统&#xff…

阅读更多...

蛋白质分子结构设计

蛋白质分子结构设计

paper read 1 Created by: 银晗张 Created time: May 27, 2023 3:47 PM Tags: Product 补充了解蛋白质的生物学知识学习一下Diffusion的原理 💡 Method & Innovations Framework Summary: first deep learning models to perform antibody sequence-stru…

阅读更多...

banner轮播图实现、激活状态显示和分类列表渲染、解决路由缓存问题、使用逻辑函数拆分业务（一级分类）【Vue3】

banner轮播图实现、激活状态显示和分类列表渲染、解决路由缓存问题、使用逻辑函数拆分业务（一级分类）【Vue3】

一级分类 - banner轮播图实现分类轮播图实现分类轮播图和首页轮播图的区别只有一个，接口参数不同，其余逻辑完成一致适配接口 export function getBannerAPI (params {}) {// 默认为1 商品为2const { distributionSite 1 } paramsreturn httpIn…

阅读更多...

pearcmd.php文件包含妙用

pearcmd.php文件包含妙用

文章目录 pearcmd.php文件包含妙用利用条件原理利用config-createinstalldownload pearcmd关键词被ban参考 pearcmd.php文件包含妙用利用条件 php.ini中register_argc_argvOn开启安装pecl/pear pecl是PHP中用于管理扩展而使用的命令行工具，而pear是pecl依赖的类…

阅读更多...

从新手到专业人士：探索 C++ STL 以获得终极性能

从新手到专业人士：探索 C++ STL 以获得终极性能

探索 C STL 以获得终极性能博主简介一、引言二、C STL 简介2.1、STL 是什么？2.2、STL 中的常用组件2.3、STL 的优点三、入门指南：了解基本概念和用法3.1、容器：vector、list、deque、set、map 等3.2、算法：查找、排序、遍历等3.…

阅读更多...

Javascript程序异常处理

Javascript程序异常处理

什么是异常，异常就是我们在编写Javascript程序时出现的一些错误，并会在控制台中抛出这个错误，出现异常其实并不是一件坏事，相对的呢它可以提醒我们开发人员哪里出现了错误，方便我们后续的修改，能让我们的代…

阅读更多...

OSI 和 TCP/IP 网络分层模型详解（基础）

OSI 和 TCP/IP 网络分层模型详解（基础）

OSI模型: 即开放式通信系统互联参考模型（Open System Interconnection Reference Model），是国际标准化组织（ISO）提出的一个试图使各种计算机在世界范围内互连为网络的标准框架，简称OSI。 OSI 七层模型 OS…

阅读更多...

centos逻辑分区磁盘扩展

centos逻辑分区磁盘扩展

最近碰到服务器磁盘空间不足，需要扩展逻辑分区的需求，特地做下小笔记，方便后续自己回忆。下图是磁盘的相关概念示意图： 1、查看磁盘空间 [rootlocalhost ~]# df -h #查看磁盘空间，根分区的大小是18G，已经用…

阅读更多...

RISCV -3 RV32I/RV64I基本整型指令集

RISCV -3 RV32I/RV64I基本整型指令集

RISCV -3 RV32I/RV64I基本整型指令集 1 RV32I Base Integer Instruction Set1.1 Programmers’ Model for Base Integer ISA1.2 Base Instruction Formats1.3 Immediate Encoding Variants1.4 Integer Computational Instructions1.4.1 Integer Register-Immediate Instruction…

阅读更多...

深入浅出多种开发语言对接淘宝京东1688阿里巴巴等电商平台，获取实时商品详情数据API接口介绍

深入浅出多种开发语言对接淘宝京东1688阿里巴巴等电商平台，获取实时商品详情数据API接口介绍

api接口详解大全?优秀的设计是产品变得卓越的原因设计API意味着提供有效的接口，可以帮助API使用者更好地了解、使用和集成，同时帮助人们有效地维护它每个产品都需要使用手册，API也不例外在API领域，可以将设计视为服务器和客户端之…

阅读更多...

iPortal 注册登录模块扩展开发

iPortal 注册登录模块扩展开发

作者：yx 文章目录前言一、示例代码简介二、对接 iPortal REST API 接口2.1、登录模块扩展开发2.2、注册模块扩展开发三、页面内容及样式实现四、配置启用定制页面前言针对注册登录模块，iPortal 允许用户通过 iFrame 方式接入自行开发的页面&#xf…

阅读更多...

pytorch安装GPU版本 (Cuda12.1)教程: Windows、Mac和Linux系统快速安装指南

pytorch安装GPU版本 (Cuda12.1)教程: Windows、Mac和Linux系统快速安装指南

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~&#x1f33…

阅读更多...

语言尽头的奇幻旅程：如何求解最后一个单词的长度？

语言尽头的奇幻旅程：如何求解最后一个单词的长度？

本篇博客会讲解力扣“58. 最后一个单词的长度”的解题思路，这是题目链接。以示例2为例：s " fly me to the moon " 首先，找到字符串末尾的\0。s一开始指向首字符f，我们从这个位置开始，向后遍历&#xff0c…

阅读更多...

基于高斯混合模型聚类的风电场短期功率预测方法（Pythonmatlab代码实现）

基于高斯混合模型聚类的风电场短期功率预测方法（Pythonmatlab代码实现）

目录 💥1 概述 📚2 运行结果 2.1 Python 2.2 Matlab 🎉3 参考文献 🌈4 Matlab代码、数据、文章讲解 💥1 概述文献来源： 摘要：对任意来流条件下的风电场发电功率进行准确预测,是提高电网对风电…

阅读更多...

153、仿真-基于51单片机四相步进电机正反转控制系统设计(程序+Proteus仿真+参考论文+流程图+配套资料等)

153、仿真-基于51单片机四相步进电机正反转控制系统设计(程序+Proteus仿真+参考论文+流程图+配套资料等)

毕设帮助、开题指导、技术解答(有偿)见文未目录一、设计功能二、Proteus仿真图三、程序源码资料包括： 需要完整的资料可以点击下面的名片加下我，找我要资源压缩包的百度网盘下载地址及提取码。方案选择单片机的选择方案一：ST…

阅读更多...

vuejs源码之模版编译原理

vuejs源码之模版编译原理

之前我们说过虚拟dom，也就是虚拟dom拿到vnode后所做的事情，而模版编译是如何让虚拟dom拿到vnode。模版编译的目标就是生成渲染函数，而渲染函数的作用是每次执行它，它就会使用当前最新的状态生成一份新的vnode，然后用…

阅读更多...

ES6基础知识八：你是怎么理解ES6中Proxy的？使用场景?

ES6基础知识八：你是怎么理解ES6中Proxy的？使用场景?

一、介绍定义： 用于定义基本操作的自定义行为本质： 修改的是程序默认形为，就形同于在编程语言层面上做修改，属于元编程(meta programming) 元编程（Metaprogramming，又译超编程，是指某类计算…

阅读更多...

.360勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

.360勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

引言： 近年来，随着互联网的普及和信息技术的快速发展，网络安全问题日益严峻。其中，勒索病毒成为网络安全领域的一大威胁。本文91数据恢复将重点介绍一种名为“.360勒索病毒”的恶意软件，并探讨被该病毒加密的数据文件…

阅读更多...

quartus工具篇——PLL IP核的使用

quartus工具篇——PLL IP核的使用

quartus工具篇——PLL IP核的使用 1、PLL简介 PLL(Phase-Locked Loop,相位锁环)是FPGA中非常重要的时钟管理单元,其主要功能包括: 频率合成 - PLL可以生成比输入时钟频率高的时钟信号。频率分频 - PLL也可以输出分频后的较低频率时钟。减小时钟抖动 - PLL可以过滤输入时钟中…

阅读更多...

踩坑视觉SLAM 十四讲第二版 ch8 编译及运行问题

踩坑视觉SLAM 十四讲第二版 ch8 编译及运行问题

1.fmt相关 CMakeLists.txt中：在后面加上 fmt target_link_libraries(optical_flow ${OpenCV_LIBS} fmt ) target_link_libraries(direct_method ${OpenCV_LIBS} ${Pangolin_LIBRARIES} fmt )2.不存在用户定义的从 "std::_Bind<void (OpticalFlowTracker::…

阅读更多...

最新文章