【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(四)- 配置和设置指令(vsetvli/vsetivli/vsetvl)

  1. 引言

以下是《riscv-v-spec-1.0.pdf》文档的关键内容:
这是一份关于向量扩展的详细技术文档,内容覆盖了向量指令集的多个关键方面,如向量寄存器状态映射、向量指令格式、向量加载和存储操作、向量内存对齐约束、向量内存一致性模型、向量算术指令格式、向量整数和浮点算术指令、向量归约操作、向量掩码指令、向量置换指令、异常处理以及标准向量扩展等。
首先,文档定义了向量元素和向量寄存器状态之间的映射关系,并阐述了向量指令的格式。在此基础上,提出了配置设置指令,如vsetvl、ivsetiv和vlsetvl,用于设定向量长度(VL)和向量对齐长度(AVL)。
接着,文档详细说明了向量加载和存储操作,以及向量内存对齐和一致性模型。这些模型确保了向量操作的高效性和准确性。
然后,文档介绍了向量算术指令格式,包括向量整数、固定点和浮点算术指令。这些指令支持广泛的数学运算,为高性能计算提供了强大的支持。
此外,文档还涉及向量归约操作、掩码指令和置换指令,这些指令增强了向量操作的灵活性和功能性。
最后,文档讨论了异常处理机制,并列举了标准向量扩展指令列表。这些扩展指令为向量处理器提供了丰富的功能集,使其能够适应不同的应用场景和性能需求。
综上所述,这份文档为向量指令集的设计和实现提供了全面的指导和参考,有助于开发者更好地理解和利用向量处理器的能力。

【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(一)-向量扩展编程模型-CSDN博客

【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(二)-向量元素到向量寄存器状态的映射-CSDN博客【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(三)-向量指令格式-CSDN博客

6 配置和设置指令(vsetvli/vsetivli/vsetvl)

处理大量元素的一种常见方法是“stripmining”,在这种方法中,每次循环迭代都会处理一定数量的元素,迭代会一直持续到所有元素都被处理完毕。RISC-V向量规范为这种方法提供了直接、可移植的支持。应用程序将待处理的元素总数(应用程序向量长度或AVL)指定为vl的候选值,硬件则通过一个通用寄存器响应,根据微架构实现和vtype设置,提供每次迭代中硬件将处理的(通常更小的)元素数量(存储在vl中)。一个简单的循环结构,如stripmining示例和SEW的更改所示,描绘了代码如何轻松地跟踪剩余的元素数量和硬件每次迭代处理的数量。

提供了一组指令,以便根据应用程序需要快速配置vl和vtype中的值。vset{i}vl{i}指令根据其参数设置vtype和vl CSR,并将vl的新值写入rd。

vsetvli rd, rs1, vtypei	#	rd	=	new	vl,	rs1 = AVL, vtypei = new vtype setting
vsetivli rd, uimm, vtypei	#	rd	=	new	vl,	uimm = AVL,	vtypei =	new vtype setting
vsetvl  rd, rs1, rs2	#	rd	=	new	vl,	rs1 = AVL,	rs2 = new	vtype value

Formats for Vector Coniguration Instructions under OP-V major opcode

6.1 vtype 编码

Table 7. vtype register layout

Bits

Name

Description

XLEN-1

vill

Illegal value if set

XLEN-2:8

0

Reserved if non-zero

7

vma

Vector mask agnostic

6

vta

Vector tail agnostic

5:3

vsew[2:0]

Selected element width (SEW) setting

2:0

vlmul[2:0]

Vector register group multiplier (LMUL) setting

新的vtype设置被编码在vsetvli和vsetivli的立即字段中,以及vsetvl的rs2寄存器中。

Suggested assembler names used for vset{i}vli vtypei immediate
e8    # SEW=8b
e16   # SEW=16b
e32   # SEW=32b
e64   # SEW=64b
mf8  # LMUL=1/8
mf4  # LMUL=1/4
mf2  # LMUL=1/2
m1   # LMUL=1, assumed if m setting absent
m2   # LMUL=2
m4   # LMUL=4
m8   # LMUL=8
Examples:
vsetvli t0, a0, e8          # SEW= 8, LMUL=1
vsetvli t0, a0, e8, m2      # SEW= 8, LMUL=2
vsetvli t0, a0, e32, mf2    # SEW=32, LMUL=1/2

vsetvl变体的工作方式与vsetvli类似,只不过它从rs2中获取vtype值,并可用于上下文恢复。

如果实现不支持vtype设置,则在vtype中设置vill位,vtype中的其余位设置为零,vl寄存器也设置为零。

早期的草案要求在设置vtype为非法值时产生陷阱。但是,这会在ISA的CSR写入上增加第一个数据相关的陷阱。实现可以选择在将非法值写入vtype时设置陷阱,而不是设置vill,以允许仿真支持新的配置以实现向前兼容性。当前方案支持通过检查给定设置是否清除了vill,对支持的向量单元配置进行轻量级运行时查询。

6.2 AVL 编码

新的向量长度设置基于AVL,对于vsetvli和vsetvl,AVL在rs1和rd字段中的编码如下:

Table 8. AVL used in vsetvli and vsetvl instructions

rd

rs1

AVL value

Effect on vl

-

!x0

Value in x[rs1]

Normal stripmining

!x0

x0

~0

Set vl to VLMAX

x0

x0

Value in vl register

Keep existing vl (of course, vtype may change)

当rs1不是x0时,AVL是存储在由rs1指定的x寄存器中的无符号整数,新的vl值也将写入由rd指定的x寄存器。

当rs1=x0但rd!=x0时,使用最大的无符号整数值(~0)作为AVL,并将结果VLMAX写入vl以及由rd指定的x寄存器。

当rs1=x0且rd=x0时,指令的操作就像是将vl中的当前向量长度用作AVL,并将结果值写入vl,但不写入目标寄存器。这种形式只能在VLMAX(因此vl)实际上没有因新的SEW/LMUL比率而改变时使用。如果使用新的SEW/LMUL比率会导致VLMAX发生变化,则保留该指令的使用。在这种情况下,实现可能会设置vill。

这种指令的最后一种形式允许在保持当前vl的同时更改vtype寄存器,前提是VLMAX没有减少。这种设计是为了确保vl始终为当前的vtype设置持有合法值。当前的vl值可以从vl CSR中读取。如果新的SEW/LMUL比率导致VLMAX缩小,则此指令可能会减少vl值,因此这种情况已被保留,因为这并不清楚这是一个普遍有用的操作,而且实现可以假设此指令不会更改vl以优化其微架构。

对于vsetiv li指令,AVL在rs1字段中编码为5位零扩展立即数(0-31)。

请注意,vsetiv li的AVL编码与常规CSR立即数值的编码相同。

当向量寄存器内部向量的维度较小且已知时,vsetiv li指令可以提供更紧凑的代码,在这种情况下,没有stripmining开销。

6.3 设置vl的约束

The vset{i}vl{i} instructions irst set VLMAX according to their vtype argument, then set vl obeying the following constraints:

1. vl = AVL if AVL ≤  VLMAX
2. ceil(AVL / 2) ≤  vl ≤  VLMAX if AVL < (2 * VLMAX)
3. vl = VLMAX if AVL ≥   (2 * VLMAX)
4. Deterministic on any given implementation for same input AVL and VLMAX values
5. These speciic properties follow from the prior rules:
a. vl = 0 if AVL = 0
b. vl > 0 if AVL > 0
c. vl ≤  VLMAX
d. vl ≤  AVL
e. a value read from vl when used as the AVL argument to vset{i}vl{i} results in the same value in vl, provided the resultant VLMAX equals the value of VLMAX at the time that vl was read

vl的设置规则被设计为足够严格,以保持vl在寄存器溢出和上下文交换时的行为(当AVL = VLMAX时),同时又足够灵活,使实现能够提高向量通道利用率(当AVL > VLMAX时)。

例如,这允许实现在VLMAX < AVL < 2 * VLMAX时设置vl = ceil(AVL / 2),以便在stripmine循环的最后两次迭代中均匀分配工作。要求2确保即使在AVL < 2 * VLMAX的情况下,归约循环的第一次stripmine迭代也使用所有迭代中的最大向量长度。这使得软件无需显式计算在stripmined循环期间观察到的向量长度的运行最大值。要求2还允许实现在VLMAX < AVL < 2 * VLMAX时将vl设置为VLMAX。

6.4 举例

SEW和LMUL设置可以动态更改,以在单个循环中的混合宽度操作上提供高吞吐量。

# Example: Load 16-bit values, widen multiply to 32b,shift 32b result
# right by 3, store 32b values.
# On entry:
#  a0 holds the total number of elements to process
#  a1 holds the address of the source array
#  a2 holds the address of the destination array
loop:
vsetvli a3, a0, e16, m4, ta, ma  # vtype = 16-bit integer vectors;
                                 # also update a3 with vl (# of elements this iteration)
 
vle16.v v4, (a1)        # Get 16b vector
slli t1, a3, 1          # Multiply # elements this iteration by 2 bytes/source element
add a1, a1, t1          # Bump pointer
vwmul.vx v8, v4, x10    # Widening multiply into 32b in <v8--v15>
vsetvli x0, x0, e32, m8, ta, ma  # Operate on 32b values
vs rl.vi v8, v8, 3
vse32.v v8, (a2)	# Store vector of 32b elements
slli t1, a3, 2	# Multiply # elements this iteration by 4 bytes/destination element
add a2, a2, t1	# Bump pointer
sub a0, a0, a3	# Dec rement count by vl
bnez a0, loop	# Any more?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/531308.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Spring进阶系列丨第八篇】Spring整合junit 面向切面编程(AOP)详解

文章目录 一、Spring整合junit1.1、导入spring整合junit的jar1.2、在测试类上添加注解1.3、说明 二、面向切面编程(AOP)2.1、问题引出2.2、AOP2.2.1、概念2.2.2、作用2.2.3、优势2.2.4、实现方式2.2.5、专业术语2.2.5.1、连接点2.2.5.2、切入点2.2.5.3、通知/增强2.2.5.4、织入…

梯度下降小结

1.梯度下降法&#xff08;Batch Gradient Desent&#xff0c;BGD&#xff09;&#xff1a; 总体m个样本&#xff0c;损失函数&#xff1a; 计算损失函数梯度&#xff1a; 参数更新&#xff1a; 2.随机梯度下降法&#xff08;Stochastic Gradient Desent&#xff0c;SGD&#x…

GEE图表案例——不同区域各地类面积直方图分布图表(矢量面积叠加直方图图)

简介 在GEE中对不同区域面积统计的直方图绘制具体流程如下: 数据准备: 首先,需要准备用于面积统计的地理数据,可以是矢量数据,如行政边界、土地使用类型等。也可以是栅格数据,如分类结果、土地覆盖数据等。 区域划分: 根据需要统计的区域,将数据进行区域划分。可以使用…

微软卡内基梅隆大学:无外部干预,GPT4等大语言模型难以自主探索

目录 引言&#xff1a;LLMs在强化学习中的探索能力探究 研究背景&#xff1a;LLMs的在情境中学习能力及其重要性 实验设计&#xff1a;多臂老虎机环境中的LLMs探索行为 实验结果概览&#xff1a;LLMs在探索任务中的普遍失败 成功案例分析&#xff1a;Gpt-4在特定配置下的探…

基于Java+SpringBoot+Vue幼儿园管理系统(源码+文档+部署+讲解)

一.系统概述 随着信息时代的来临&#xff0c;过去的传统管理方式缺点逐渐暴露&#xff0c;对过去的传统管理方式的缺点进行分析&#xff0c;采取计算机方式构建幼儿园管理系统。本文通过课题背景、课题目的及意义相关技术&#xff0c;提出了一种教 学生信息、学生考勤、健康记录…

智慧粮仓监测系统解决方案

一、概述 粮食储备是每个国家战略物资中最为重要的一项储备&#xff1b;而随着现代化农业的快速发展以及国家经济发展的需要&#xff0c;我国粮食产量和储备量长期处于世界前列。传统的粮仓由于修建年代久远&#xff0c;可能存在着设施落后&#xff0c;实时监控不到位的现象&am…

谷粒商城实战(011 业务-异步多线程)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第193p-第p202的内容 介绍 继承Thread 继承Runnable接口 继承callable FutureTask继承的就是runnable 线程池 代表有10个线程来等待接收我们的…

高并发秒杀系统

六种手段&#xff1a; 1.页面静态化 商品秒杀页面做静态化处理&#xff0c;常规请求不会到服务端。 2.cdn内容分发 将前端资源缓存到cdn上&#xff0c;就近分发给不同区域的客户端&#xff1b; 秒杀开始后将新的js文件同步到cdn上&#xff1b; 前端加一个控制器&#xff…

看看《MATLAB科研绘图与学术图表绘制从入门到精通》示例:绘制山鸢尾萼片长度和萼片宽度的小提琴图

使用MATLAB绘制鸢尾花数据集&#xff08; fisheriris&#xff09;中山鸢尾&#xff08; Iris Setosa&#xff09;的萼片长度和 萼片宽度的小提琴图。这将帮助我们更好地了解山鸢尾的这两个特征的数据分布情况&#xff0c;包括它们的 中位数、四分位范围及密度估计。这种可视化工…

老杜spring6自己笔记

精讲 【Spring视频零基础入门到高级&#xff0c;spring全套视频教程详解】 https://www.bilibili.com/video/BV1Ft4y1g7Fb/?p12&share_sourcecopy_web&vd_source833390c85450e4ff7747a5f16c02cc1e 老杜spring6网盘资料&#xff1a; 链接&#xff1a;https://pan.bai…

cesium 添加动态波纹效果 圆形扩散效果 波纹材质

一、扩展材质 /*** 水波纹扩散材质* param {*} options* param {String} options.color 颜色* param {Number} options.duration 持续时间 毫秒* param {Number} options.count 波浪数量* param {Number} options.gradient 渐变曲率*/function CircleWaveMaterialProperty(opt…

CF938Div3(A-F)

A: 买n个酸奶&#xff0c;一次一瓶a元,一次买两瓶可以优惠价b元,也可以a元,问恰好买n瓶需要多少钱. void solve() {int n, a, b;cin >> n >> a >> b;int ans min(a * n, n / 2 * b n % 2 * a);cout << ans << endl; } B: 给你一个数组,问能…

pdfjs-4.0.379-dist直接打开viewer.html报错

下载了pdfjs-4.0.379-dist&#xff0c;但是直接打开viewer.html报错。解决方法&#xff1a;安装live Sever&#xff0c;并用live Server打开 打开浏览器截图 错误提示如下&#xff1a; Access to image at file:///D:/work/web-common/car-knowledge-base-web/static/pdfjs-4…

OJ 栓奶牛【C】【Python】【二分算法】

题目 算法思路 要求的距离在最近木桩与最远木桩相隔距离到零之间&#xff0c;所以是二分法 先取一个中间值&#xff0c;看按照这个中间值可以栓多少奶牛&#xff0c;再与输入奶牛数比较&#xff0c;如果大于等于&#xff0c;则增大距离&#xff0c;注意这里等于也是增大距离…

AcWing1262.鱼塘钓鱼

【题目链接】1262. 鱼塘钓鱼 - AcWing题库 输入样例&#xff1a; 5 10 14 20 16 9 2 4 6 5 3 3 5 4 4 14输出样例&#xff1a; 76 【代码及详细注释】 #include<bits/stdc.h> using namespace std; typedef long long ll; const int N110; int a[N],b[N],sp[N],d[N]…

Unity Pro 2019 for Mac:专业级游戏引擎,助力创意无限延伸!

Unity Pro 2019是一款功能强大的游戏开发引擎&#xff0c;其特点主要体现在以下几个方面&#xff1a; 强大的渲染技术&#xff1a;Unity Pro 2019采用了新的渲染技术&#xff0c;包括脚本化渲染流水线&#xff0c;能够轻松自定义渲染管线&#xff0c;通过C#代码和材料材质&…

Day36:LeedCode 435. 无重叠区间 763.划分字母区间 56. 合并区间 蓝桥杯 管道

435. 无重叠区间 给定一个区间的集合 intervals &#xff0c;其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量&#xff0c;使剩余区间互不重叠 。 示例 1: 输入: intervals [[1,2],[2,3],[3,4],[1,3]] 输出: 1 解释: 移除 [1,3] 后&#xff0c;剩下的区间…

Python 编程 深入了解内存管理机制、深拷贝与浅拷贝

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、对象和引用、内存管理机制 Python 中的一切都是对象&#xff0c;包括数字、字符串、列表和函数等。为了简化内存管理并提高效率&#xff0c;Python 采用了统一的对象模型。在这个模型中&#xff0c…

c++——sort()函数

一、代码和效果 #include<bits/stdc.h> using namespace std;int main() {int a[6]{1,45,2,5,456,7};sort(a,a6);for(int i0; i<6; i){cout<<a[i]<<" "<<endl;}return 0; } 二、sort函数解析 &#xff08;从小到大&#xff09; std::so…

【C++】lambda表达式

目录 一、lambda表达式1.1 C98中的例子1.2 lambda表达式语法1.3 函数对象与lambda表达式 一、lambda表达式 1.1 C98中的例子 如果要对一个数据集合进行排序&#xff0c;可以使用sort函数&#xff1a; int main() {int array[] { 4,1,8,5,3,7,0,9,2,6 };// 默认按照小于比较…