LLVM 后端执行流程

异构计算程序工作流程

在这里插入图片描述

图4-1中的LLVM后端的主要功能是代码生成,其中包括若干指令生成分析转换pass,将LLVM IR 转换为特定目标架构的机器代码

LLVM 流水线结构

在这里插入图片描述

输入指令经过图4-2中的各个阶段,从最初的LLVM IR,逐步演化为SelectionDAG、MachineDAG、MachineInstr,最后由MCInst 输出可执行的二进制代码或汇编代码

这其中经过的各个阶段是不同的分析转换pass,主要包括指令选择(Instrunction Selection)、指令调度(Instrunction Scheduling), 寄存器分配(Register Allocation)、以及代码发射(Code Emission)

不同目标后端应根据实际需要,对不同pass做定制化。指令选择、指令调度和寄存器分配是后端流程中最重要的3个组成部分

LLVM 后端执行流程

SelectionDAG 的创建

首先,SelectionDAGBuilder 模块遍历LLVM IR中每一函数,以及函数中的每一个基本块,并将其中的指令转换成SDNode对象,整个基本块相应地转换为Selection DAG 对象。SelectDAG 对象的创建过程采用窥孔优化算法,DAG中每个节点的内容仍是LLVM IR指令

在这里插入图片描述

图4-3以一个C/C++语言实现的函数为例,显示了LLVM IR 与 SelectionDAG的对应关系

图4-3的LLVM IR 中只有一个基本块。当SelectionDAGBuilder模块检测到IR指令时,调用相应的visit()函数

例如,如果IR指令为sdiv操作,则调用visitSDIV() 函数,将两个操作数保存为SD-Vaule对象,并从DAG中获取SDNode节点,以ISD::SDIV作为操作符

  • 在图4-3所示的sdiv节点中,操作数0为%add,操作数1为%c

用类似的方法处理完所有IR指令后,IR被转换为如图4-3所示的SelectionDAG。每个DAG表示一个基本块中的计算,不同的基本块与不同的DAG关联

DAG中的节点表示计算,节点之间的边可以有不同的含义。DAG中的每个SDNode节点会维护一个记录,其中保存了本节点对其他节点的各种依赖关系

这些依赖关系可能是数据依赖(本节点使用了其他节点定义的值),也可能是控制流依赖(本节点的指令必须在其他节点的指令执行后才能执行)

这种依赖关系通过SDValue对象表示,SDValue对象中封装了指向关联节点的指针和被影响结果的的序列号。也可以说,DAG中的操作顺序通过DAG边的使用-定值关系确定

例如,图4-3中的sdiv节点中有一条输出边连接到add节点,这意味着add节点定义了一个会被sdive中使用的值

因此,add操作必须在sdiv节点之前执行。SelectionDAG中的节点依赖关系可总结为如下三类

  • 黑色箭头表述数据流依赖。数据流依赖表示当前节点依赖前一节点的结果。DAG中大部分节点依赖关系是数据流依赖
  • 虚线彩色箭头表示非数据流链依赖。链依赖可以防止副作用节点,确定两个不相关指令的顺序。例如,如果加载和保存指令访问的是相同的内存位置,就必须确保它们的执行顺序与其在原程序中的顺序一致。图中的CopyToReg节点操作必须在RET_FLAG节点之前发生,因为它们之间是链依赖
  • 彩色箭头表示粘合(glue)依赖。粘合依赖是用来防止两个指令调度后被分开,即它们中间不能插入其他指令

将IR转换为DAG很重要,因为可以让代码生成器使用基于树的模式匹配指令选择算法。此时的SelectionDAG与目标设备无关,但对于具体目标设备而言,DAG中有些指令可能不合法。因为不同目标设备支持的指令集不同,指令集中的指令IR指令可能没有对应关系

  • 例如,x86不支持sdiv而是支持sdivrem

合法化

由SelectionDAGBuilder 模块输出的SelectionDAG 不是机器指令,不能做指令选择。在生成机器指令之前,DAG节点还要经过几个转换阶段,其中合法化(legalization)是最重要的阶段

执行合法化的原因是SelectionDAGBuilder 模块构造SDNode节点中的指令操作数类型和操作不一定能被目标平台支持。因此,SDNode节点的合法化及操作数类型的合法化和操作的合法化

目标平台一般不可能为IR中的所有操作提供指令支持。因此,操作合法化的目的是将这些平台不支持的操作三种方式转换成平台支持的操作

    1. 扩展(Expansion): 即用一组操作来模拟一个操作
    1. 提升(Promotion): 即将数据转换成更大的类型来支持操作
    1. 定制(Custom): 即通过目标平台相关的钩子程序(hook) 实现合法化

例如,LLVM IR 的sdiv只计算商,而x86除法指令计算得到商和余数,并分别保存在两个寄存器中。因为指令选择可区分sdivrem和sdiv,因此,当目标平台不支持sdiv时,需要在合法化阶段将sdiv扩展到sdivrem指令

在这里插入图片描述

目标平台相关信息可通过TargetLowering接口传递给SelectionDAG,如图4-4所示

LLVM后端会实现该接口,并描述如何将LLVM IR指令用合法的SelectionDAG操作实现。例如,x86的TargetLowering构造合法函数通过Expand标志来标识需要扩展的节点

当SelectionDAGLegalize::LegalizeOp()方法检测到sdiv节点的Expand标志时,便可用sdivrem替换sdiv节点

与此类似,与目标平台相关的合并方法可识别节点组合模式,并决定是否合并某些节点组合以提高指令选择质量

类型合法化的目的是保证后续的指令选择处理的数据类型都合法。合法数据是目标平台原生支持的数据类型,目标平台的td文件中会为每一种数据类型定义关联的寄存器类如:

def FPRegs : RegisterClass<"SP", [f32], 32, (sequence "F%u", 0, 31)>
def DFPRegs : RegisterClass<"SP", [f64], 64, (add D0, D1, D2, D3, D4, D5, D6, D7, D8, D9)>

FPRegs 寄存器类定义了一组32个从F0~F31单精度浮点类型的寄存器,DFPRegs 寄存器类定义了一组16个从D0~D15双精度浮点类型的寄存器

如果平台的td文件的寄存器类没有定义相应的数据类型,则对平台来说,该数据类型就是非法数据类型。非法数据类型必须被删除,或者视非法数据类型不同,做相应处理

如果非法数据类型为标量,则可以将较小的非法类型转换为较大的合法类型。例如,平台只支持i32,那么i1/i8/i16都要提升到i32,使其合法化

或者将较大的非法类型拆分成多个小的合法类型。例如,如果目标平台只支持i32,那么加法的i64操作数就是非法类型。在这种情况下,可通过整数扩展(integer expansion),将i64操作数分解成两个i32操作数,并产生相应的节点,使其合法化

如果非法数据类型为矢量,则可以将大的非法矢量操作拆分成多个,可以被平台支持的,小的矢量。或者将非法矢量操作数标量化(scalarizing),即在不支持SIMD的平台上,将矢量拆分为多个标量进行运算

指令选择

SelectionDAG 对象经过合法化和其他优化处理,DAG中的节点被映射为目标指令,这个映射过程称为指令选择

指令选择是LLVM后端中的一个重要阶段。这个阶段的输入是经过合法化的SelectionDAG。从耗时方面来说,指令选择占用了后端编译总耗时的一半。指令选择通过节点模式匹配完成DAG到DAG的转换,将SelectionDAG 节点转换为目标指令节点,也就是将LLVM IR指令转换为机器指令,所以转换后的DAG又称为machineDAG,可以用来执行基本块中的运算

LLVM的指令是一种在TableGen辅助下实现的基于表的指令选择机制。目标平台的后端可以在SelectionDAGISel::Select()函数中通过定制代码处理某些指令

其他指令通过TableGen生成的匹配表(MatcherTable)和SelectCode()函数,由LLVM默认的指令选择过程完成ISD和平台ISD到机器指令节点的映射

  • 例如,在x86后端中,经过合法化的sdivrem操作就是由定制代码做指令选择
  • Select()函数的输入SDNode节点如果是sdivrem,会选择对应的x86指令IDIV32r,并生成一个MachineSD节点

MachineSD 节点是SDNOde的子集,其内容是平台机器指令,但仍然以DAG节点的是形式表手。以下三种类型指令表达可在同一个DAG中共存:一般LLVM ISD节点(如ISD::ADD)、平台相关ISD节点(如X86ISD::RET_FLAG)和平台指令(如X86::ADD32ri8)

指令调度

指令选择完成后得到以machineDAG格式表示的基本块,其内容虽然是机器指令,但仍然是以DAG形式存在

而CPU/GPU 不能执行DAG,只能执行指令的线性序列。因此,需要在machineDAG上进行指令调度,确定基本块中指令的执行顺序,将DAG节点线性化

指令调度分为寄存器分配前(pre-RA) 指令调度和寄存器分配后(post-RA) 指令调度。最简单的寄存器分配前指令调度是指将DAG中的节点按拓扑结构排序,在考虑指令级的并行性的同时,生成线性发射指令序列。经过该阶段后的指令转换为MachineInstr格式的3地址。此后,DAG表示形式不再使用,可以销毁

寄存器分配后指令调度处理MachineInstr格式的机器指令,并可以利用物理寄存器信息和硬件架构特性,根据性能指标需要,对指令顺序做调整

寄存器分配

经过指令阶段产生的代码是SSA形式的,代码中可以使用无限多的虚拟寄存器,而硬件平台的物理寄存器数量是有限的

如果物理寄存器数量不足以容纳所有虚拟寄存器,虚拟寄存器则会溢出(spill)到内存。因此,寄存器分配的目的是为虚拟寄存器分配物理寄存器,并优化寄存器分配过程,使虚拟寄存器的溢出代价最小化

虚拟寄存器到物理寄存器的映射有两种方式

  • 直接映射和间接映射

直接映射利用TargetRegisterInfo 和 MachineOperand 类获取加载/保存指令插入位置,间接映射利用VirtRegMap类处理加载/保存指令

LLVM中的寄存器分配算法有四种

  • 基本寄存器分配
  • 快速寄存器分配
  • PBQP 寄存器分配
  • 贪厌寄存器分配

在这里插入图片描述

寄存器分配过程依赖其他分析pass的分析结果,其中最重要的是寄存器合并(register coalese) pass 和虚拟寄存器重写(virtual register rewrite) pass

由于二地址转换过程中生成复制指令,从而引入了新的虚拟寄存器,这对后续的物理寄存器分配带来了压力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/697538.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【因果推断python】26_双重稳健估计1

目录 不要把所有的鸡蛋放在一个篮子里 双重稳健估计 关键思想 不要把所有的鸡蛋放在一个篮子里 我们已经学会了如何使用线性回归和倾向得分加权来估计 。但是我们应该在什么时候使用哪一个呢&#xff1f;在不明确的情况下&#xff0c;请同时使用两者&#xff01;双重稳健估计…

MySQL8基于GTID以及VIP实现高可用主从架构

jdbc客户端配置高可用以及故障切换 jdbc客户端实现故障切换 MySQL Connector/J 支持服务器故障转移。当底层活动连接发生与连接相关的错误时&#xff0c;就会发生故障转移 参考官网地址 jdbc:mysql://[primary host][:port],[secondary host 1][:port] jdbc客户端实现故障切…

数据结构复习笔记

简答题 (3) 顺序表和链表的概念及异同 顺序表: 把逻辑上相邻的结点储存在物理位置上的相邻储存单元中&#xff0c;结点的逻辑关系由储存单元的邻接关系来体现.链表: 逻辑上相邻的结点存储再物理位置上非连续非顺序的存储单元中, 结点的逻辑关系由指向下一个结点的指针确保.相…

LangChain开发【NL2SQL】应用

前言 关于LangGraph的简单介绍&#xff0c;请参考这篇博客&#xff1a; LangGraph开发Agent智能体应用【基础聊天机器人】-CSDN博客 对比LangChain实现NL2SQL 关于用LangChain开发NL2SQL的Agent应用&#xff0c;在这篇博客提供了完整的代码实现&#xff1a; LangChain开发…

xilinx的Aurora8B10B的IP仿真及上板测试(高速收发器十七)

前文讲解了Aurora8B10B协议原理及xilinx相关IP&#xff0c;本文讲解如何设置该IP&#xff0c;并且通过示例工程完成该IP的仿真和上板。 1、生成Aurora8B10B IP 如下图所示&#xff0c;首先在vivado的IP catalog中输入Aurora 8B10B&#xff0c;双击该IP。 图1 查找Aurora 8B10…

selenium自动化测试入门 —— Alert/Confirm/Prompt 弹出窗口处理!

一、Alert/Confirm/Prompt弹出窗口特征说明 Alert弹出窗口&#xff1a; 提示用户信息只有确认按钮&#xff0c;无法通过页面元素定位&#xff0c;不关闭窗口无法在页面上做其他操作。 Confirm 弹出窗口&#xff1a; 有确认和取消按钮&#xff0c;该弹出窗口无法用页面元素定…

angular2开发知识点

目录 文章目录 一、API 网关地址 配置二、服务注册使用三、模块组件注册使用四、html中style类动态绑定1. 单个类的绑定&#xff1a;[class.special]"isSpecial"2. 多个类的绑定&#xff1a;[ngClass]"{selected:status ,saveable: this.canSave,}"3. 单个…

ElementUI中date-picker组件,怎么把大写月份改为阿拉伯数字月份(例如:一月、二月,改为1月、2月)

要将 Element UI 的 <el-date-picker> 组件中的月份名称从中文大写&#xff08;如 "一月", "二月"&#xff09;更改为阿拉伯数字&#xff08;如 "1月", "2月"&#xff09;&#xff0c;需要进行一些定制化处理。可以通过国际化&a…

测试与开发

目录 按照测试目标分类 界面测试 功能测试 性能测试 可靠性测试 安全性测试 易用性测试 按照执行方式分类&#xff1a; 测试方法 白盒测试 语句覆盖 条件覆盖 判定条件覆盖 条件组合覆盖 路径覆盖 黑盒测试 灰盒测试 按照测试阶段分类 单元测试 集成测试 …

Java24:会话管理 过滤器 监听器

一 会话管理 1.cookie 是一种客户端会话技术&#xff0c;cookie由服务端产生&#xff0c;它是服务器存放在浏览器的一小份数据&#xff0c;浏览器 以后每次访问服务器的时候都会将这小份的数据带到服务器去。 //创建cookie对象 Cookie cookie1new Cookie("…

使用DPO微调大模型Qwen2详解

简介 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback&#xff0c;RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步&#xff0c;它可以确保语言模型的输出符合人类在闲聊或安全性等方面的期望。但传统的RLHF比较复杂&#xff0c;且还需要奖励…

OSPF LSA头部详解

LSA概述 LSA是OSPF的本质 , 对于网工来说能否完成OSPF的排错就是基于OSPF的LSDB掌握程度 . 其中1/2类LAS是负责区域内部的 类似于设备的直连路由 . 加上对端的设备信息 3 类LSA是区域间的 指的是Area0和其他Area的区域间关系 , 设计多区域的初衷就是避免大型OSPF环境LSA太多…

AMD在行动:揭示应用程序跟踪和性能分析的力量

AMD in Action: Unveiling the Power of Application Tracing and Profiling — ROCm Blogs 导言 Rocprof是一款强大的工具&#xff0c;设计用于分析和优化基于AMD ROCm平台上运行的HIP程序的性能&#xff0c;帮助开发者找出并解决性能瓶颈。Rocprof提供了多种性能数据&#x…

生成树协议(思科)

#交换设备 生成树协议&#xff08;STP) 目的 1.理解生成树的原理 理解STP的选举过程 2.会配置STP 为什么只有交换机0的f0/1接口变成了阻塞状态&#xff1f; 在环形的交换网络中&#xff0c;如果所有的接口都通畅&#xff0c;会形成闭回路&#xff0c;造成网路风暴 一、STP…

【优选算法】字符串

一、相关编程题 1.1 最长公共前缀 题目链接 14. 最长公共前缀 - 力扣&#xff08;LeetCode&#xff09; 题目描述 算法原理 编写代码 // 解法一&#xff1a;两两比较 class Solution { public:string longestCommonPrefix(vector<string>& strs) {int k strs[0…

《QT实用小工具·七十》openssl+qt开发的P2P文件加密传输工具

1、概述 源码放在文章末尾 该项目实现了P2P的文件加密传输功能&#xff0c;具体包含如下功能&#xff1a; 1、 多文件多线程传输 2、rsaaes文件传输加密 3、秘钥随机生成 4、断点续传 5、跨域传输引导服务器 项目界面如下所示&#xff1a; 接收界面 发送界面 RSA秘钥生成…

CTF-PWN-kernel-UAF

文章目录 参考slub 分配器kmem_cache_cpukmem_cache_node[ ]冻结和解冻分配释放 fork绑核Kmalloc flag和slub隔离CISCN - 2017 - babydriver检查babtdriver_initstruct cdevalloc_chrdev_regioncdev_initownercdev_add_class_createdevice_create babyopenbabyreleasebabyreadb…

CleanMyMac2024最新免费电脑Mac系统优化工具

大家好&#xff0c;我是你们的好朋友——软件评测专家&#xff0c;同时也是一名技术博主。今天我要给大家种草一个超级实用的Mac优化工具——CleanMyMac&#xff01; 作为一个长期使用macOS的用户&#xff0c;我深知系统运行时间长了&#xff0c;缓存文件、日志、临时文件等都会…

数据库管理-第200期 身边的数据库从业者(20240610)

数据库管理200期 2024-06-10 数据库管理-第200期 身边的数据库从业者&#xff08;20240610&#xff09;首席-薛晓刚院长-施嘉伟邦德-王丁丁强哥-徐小强会长-吴洋灿神-熊灿灿所长-严少安探长-张震总结活动预告 数据库管理-第200期 身边的数据库从业者&#xff08;20240610&#…

**《Linux/Unix系统编程手册》读书笔记24章**

D 24章 进程的创建 425 24.1 fork()、exit()、wait()以及execve()的简介 425 . 系统调用fork()允许父进程创建子进程 . 库函数exit(status)终止进程&#xff0c;将进程占用的所有资源归还内核&#xff0c;交其进行再次分配。库函数exit()位于系统调用_exit()之上。在调用fo…