【2023CANN训练营第二季】——Ascend C算子调用及实验演示

自定义算子调用方式

image.png
完成自定义算子的开发部署后,可以通过单算子调用的方式来验证单算子的功能。单算子调用有API执行和模型执行两种方式:

  • 单算子API执行:基于C语言的API执行算子,无需提供单算子描述文件进行离线模型的转换,直接调用单算子API接口。
  • 单算子模型执行:基于图IR执行算子,先编译算子(例如,使用ATC工具将Ascend IR定义的单算子描述文件编译成算子om模型文件),再调用AscendCL接口加载算子模型,最后调用AscendCL接口执行算子。

两种方式对于自定义算子开发部署的不同约束要求如下:
image.png

下面分别梳理单算子调用的方式

单算子API执行,Aclnn调用方式

要进行单算子API执行,首先需要做一些前置工作:
参考基于msopgen工具创建算子工程完成算子工程的创建,参考kernel侧算子实现完成kernel侧实现的相关准备,参考host侧算子实现完成host侧实现相关准备。参考算子编译部署完成算子的编译部署。

然后检查API执行需要的头文件和库文件是否自动生成,算子工程build_out/auto_gen目录下会自动生成以下文件
├── aclnn_Xxx.cpp // 自动生成的单算子API执行接口实现文件
├── aclnn_Xxx.h // 自动生成的单算子API执行接口头文件
├── …

接下来准备验证代码工程:目录如下:
image.png

Aclnn调用步骤主要包括如下:
1.AscendCL初始化
调用allnit接口实现初始化AscendCL
2.运行管理资源申请,依次申请运行管理资源: Device、 Context. Stream
3.申请内存和传输数据
调用aclrtMalloc接口申请Device_上的内存,存放待执行算子的输入、输出数据
调用aclCreate的张量、aclcreateIntArray等接口构造算子的输入、输出,如aclTenser
如果需要将Host.上数据传输到Device,则需要调用acIrtMemcpy接口(同步接口)或AclrtmemcpyAsync接口(异步接口)通过内存复制的方式实现数据传输

4.计算workspace并执行算子
调用acInnXxxGetWorkspaceSize接口获取算子入参和算子执行流程需要的workspace大小
调用acltMalloc接口,根据workspaceSize大小申请Device侧内存
调用acInnXxx接口执行计算并得到结果
5.调用aclrtSynchronizeStream接口阻塞应用运行,直到指定Stream中的所有任务都完成。
6.运行管理资源释放
7.AscendCL去初始化
整理成图片形式如下:
image.png

单算子模型调用方式

单算子模型根据算子编译方式,分为在线和离线调用方式,主要步骤为:
先将自定义算子转换为单算子离线模型文件(*.om),然后通过AscendCL接口加载单算子模型文件并运行。
主要步骤包括:

1.编译算子
根据算子编译的方式,分为离线编译(ofline)和在线编译(online):

  • 编译算子后, 算子相关数据保存在* .om模型文件中,需使用ATC工具,将单算子定义文件(json) 编译成离线模型(.om文件)
  • 编译算子后,算子相关数据保存在内存中,对于同一个算子,编译一次,多次执行的场景,调用aclopCompile接口编译算子

2.加载算子模型文件
调用aclopSetModelDir接口,设置加载模型文件的目录,目录下存放单算子模型文件(*.om文件)
3.调用aclrtMalloc接口申请Device,上的内存,存放执行算子的输入、输出数据,如果需要将Host_上数据传输到Device,则需要调用aclrtMemcpy接口(同步接口)或acltMemcpyAsync接口 (异步接口) 通过内存复制的方式实现数据传输
4.执行算子
调用aclopExecuteV2接口执行算子。每次执行算子时,系统内部都会根据算子描述信息匹配内存中的模型
5.调用aclrtSynchronizeStream接口阻塞应用运行,直到指定Stream中的所有任务都完成
6.调用aclrtFree接口释放内存
如果需要将Device.上的算子执行结果数据传输到Host,则需要调用aclrtMemcpy接口(同步接口)或aclrtMemcpyAsync接口 (异步接口)通过内存复制的方式实现数据传输,然后再释放内存。

下面自己做实验,演示上述三种自定义算子调用方式

调用方式样例演示

本次演示主要分为三种,分别为online,offline,Aclnn的模型,下面分别看每一种的演示步骤:

编译并运行在线编译的单算子API样例

因为我在在新版的samples仓库并没有看到课程里的那个文件夹下的aclnn_online_model文件
86d87ed286d371cf74c2221206f6215.png

de8844153214da83307f1b6dd627b05.png

咨询了一下,在home/ma-user/samples/operator/AddCustomSample/FrameworkLaunch/AclNNInvocation文件夹下,所以如果是11月下载samples版本的伙伴可以在这个目录下找到上面三种模型。


!!重要:
单算子调用之前,需要先编译算子工程,进行AddCustom目录:

cd home/ma-user/work/samples/operator/AddCustomSample/FrameworkLaunch/AddCustom

修改CMakePresets.json文件的"ASCEND_CANN_PACKAGE_PATH"字段,修改为请替换为CANN软件包安装后的实际路径
image.png

修改好之后在当下的目录下编译工程:

bash build.sh

显示以下信息则说明成功:
image.png

此时在AddCustom文件夹下生成了一个新的文件夹build_out,里面有autogen等文件

image.png

接下来进行算子部署
进入到build_out目录下,执行以下命令:

./custom_opp_euleros_aarch64.run

生成以下信息说明部署成功:

image.png

准备工作做好了之后,就可以进行编译并运行单算子API样例


进入AclNNInvocation目录:

cd home/ma-user/work/samples/operator/AddCustomSample/FrameworkLaunch/AclNNInvocation

执行run.sh脚本

bash run.sh

运行成功显示如下:
image.png

编译并运行离线编译的单算子模型样例

进入到AclOfflineModel目录:

home/ma-user/work/samples/operator/AddCustomSample/FrameworkLaunch/AclOfflineModel

执行 bash run.sh命令,报错:

ERROR: acl executable run failed! please check your project!

image.png

报错原因应该是因为我在启智社区调式的镜像环境有问题,需要源码安装python3.7.5

下载python3.7.5并解压、安装

wget https://canncamp202302.obs.cn-north-4.myhuaweicloud.com/Python-3.7.5.tgz
tar -zxvf Python-3.7.5.tgz
cd Python-3.7.5
./configure --prefix=/usr/local/python3.7.5 --enable-loadable-sqlite-extensions --enable-shared
make
make install

设置环境变量

export PATH=/usr/local/python3.7.5/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH

安装依赖

pip3 install -i https://repo.huaweicloud.com/repository/pypi/simple/  --upgrade pip
pip3 install -i https://repo.huaweicloud.com/repository/pypi/simple/ attrs numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf==3.19.0 scipy requests absl-py wheel typing_extensions

接下来再次运行AclOfflineModel目录下的命令:

bash run.sh

然后等一会儿,ATC在启动中

生成以下信息则说明运行成功:

image.png

编译并运行在线编译的单算子模型样例

进入到AclOnlineModel目录下:

cd home/ma-user/work/samples/operator/AddCustomSample/FrameworkLaunch/AclOnlineModel

使用aclopCompile模型调用的方式调用AddCustom算子工程

bash run.sh

生成以下信息说明运行成功

image.png

以上就是Ascend C算子调用的理论知识和实操环节,总结一下自己在进行实验的时候遇到了很多问题,报了一些错误,比如cmake版本太低,还有头文件找不到等错误,归根到底是路径设置,和版本更新问题,最后通过在群里,昇腾社区提问的方式,还有看了有经验的大佬写的帖子,解决了这些问题,说明还是要多加实操,遇到问题就解决,解决不了就寻求帮助,加油!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/206379.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IDEA性能优化的相关配置

有时候会发现idea用起来特别卡,你会发现不是整个电脑卡,而是idea用起来卡。这时候就需要对idea做一下性能优化了。 首先我们把idea的内存调出来:可以右击idea底部然后点这个Memory Indicator,然后就能看到idea使用的内存了。 为什…

传统算法:使用 Pygame 实现选择排序

使用 Pygame 模块实现了选择排序的动画演示。首先,它生成一个包含随机整数的数组,并通过 Pygame 在屏幕上绘制这个数组的条形图。接着,通过选择排序算法对数组进行排序,动画效果可视化每一步的排序过程。在排序的过程中,程序找到未排序部分的最小元素,并将其与未排序部分…

wyler水平仪维修WYLER倾角仪维修CH-8405

瑞士WYLER电子水平仪维修;BIueCLINO倾斜度测量仪维修;wyler电子倾角仪维修。 水平仪常见故障及处理方法 1、 仪表通电不工作。 A、检查仪表220V电源端子接线是否正确 B、检查仪表电容是否熔断; C、拧下仪表后的固定螺钉,将表…

群晖NAS配置之搭建WordPress个人博客站点

群晖NAS配置之搭建WordPress个人博客站点 之前写了一些ngrok和frp给群晖nas做内网穿透,今天分享一下在群晖nas下安装wordpress的教程。 WordPress是一个开源的内容管理系统(CMS),最初是用来搭建博客的,但后来发展成为…

transformer模型和Multi-Head Attention

参考英文文献: Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch Transformer Block 弄懂Transformer Layer 和Transformer Block的关系后,豁然开朗_MengYa_DreamZ的博客-CSDN博客 https://www.tensorf…

RocketMQ-RocketMQ快速实战及集群原理

一、MQ简介 ​ MQ:MessageQueue,消息队列。是在互联网中使用非常广泛的一系列服务中间件。 这个词可以分两个部分来看,一是Message:消息。消息是在不同进程之间传递的数据。这些进程可以部署在同一台机器上,也可以分布…

seata集成springboot的一些错误小计

1 seata依赖没找到 dependencies.dependency.version for com.alibaba.cloud:spring-cloud-starter-alibaba-seata:jar is missing. line 126, column 21错误原因:未指定具体的seata版本 解决 <!-- https://mvnrepository.com/artifact/com.alibaba.cloud/spring-cloud-st…

Echarts 柱状图添加标记 最大值 最小值 平均值

标记 最大值 最小值 series: [//图表配置项 如大小&#xff0c;图表类型{name: 图例,type: bar,//图表类型data: [{value: 500,time: 2012-11-12},{value: 454,time: 2020-5-17},{value: 544,time: 2022-1-22},{value: 877,time: 2013-1-30}, {value: 877,time: 2012-11-12}] …

魔珐科技:3D虚拟人AIGC原生产品,助力全新商业机遇

11月28日-29日&#xff0c;WISE2023 商业之王大会在北京国际会议中心成功举办。此次大会以“太阳照常升起&#xff08;The Sun Always Rises&#xff09;”为主题&#xff0c;活动汇聚了全商业领域知名企业&#xff0c;围绕前沿趋势&#xff0c;共话商业创新之策。 在本次论坛…

基于Python Flask 的全流程全栈项目自己的实战心得

我基于Python Flask框架开发全流程全栈项目的实战经验和心得。我将介绍整个项目的架构设计、前后端交互、数据库管理以及部署等方面&#xff0c;并提供具体的代码示例。通过这个实例项目&#xff0c;你将学习到如何使用Flask构建一个完整的Web应用&#xff0c;并了解一些常见的…

设计循环队列

目录 设计循环队列 &#x1f642;【1】数组循环队列 思路分析 ❓1 ❓2 ❓3 易错总结 创建MyCircularQueue 初始化myCircularQueueCreate 为空否myCircularQueueIsEmpty 为满否myCircularQueueIsFull 插入元素myCircularQueueEnQueue 删除元素myCircularQueueDeQue…

[原创][3]探究C#多线程开发细节-“用ConcurrentQueue<T>解决多线程的无顺序性的问题“

[简介] 常用网名: 猪头三 出生日期: 1981.XX.XXQQ: 643439947 个人网站: 80x86汇编小站 https://www.x86asm.org 编程生涯: 2001年~至今[共22年] 职业生涯: 20年 开发语言: C/C、80x86ASM、PHP、Perl、Objective-C、Object Pascal、C#、Python 开发工具: Visual Studio、Delphi…

C++17那些事开篇之类模版参数推导(CTAD)

C17那些事开篇之类模版参数推导(CTAD) 引入 大家好&#xff0c;我是光城&#xff0c;今天开始正式开篇C17的新特性了&#xff0c;期待不&#xff0c;欢迎留言区说出想要更新的特性呀&#xff5e; C模板元编程一直是C开发者们熟知的一项功能&#xff0c;无论是初学者还是高级开发…

java springboot通过application配置文件生成随机值并控制范围

我们找到 项目的 application 配置文件 这里我们还是习惯用 yml格式的 我们在配置文件中 写出 ${random.} 的时候 他就会将所有可配置的随机类型都提示出来了 有 整数 长整星 字符串 uuid 这里 我们来个模板 testcase:book:id: ${random.int}name: ${random.value}date: ${r…

kubernetes(K8s)(Namespace、Pod、Deployment、Service资源的基本操作)-04

Namespace Namespace是kubernetes系统中的一种非常重要资源&#xff0c;它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。 默认情况下&#xff0c;kubernetes集群中的所有的Pod都是可以相互访问的。但是在实际中&#xff0c;可能不想让两个Pod之间进行互相的…

智跃人力资源管理系统 SQL注入漏洞复现

0x01 产品简介 智跃人力资源管理系统是基于B/S网页端广域网平台&#xff0c;一套考勤系统即可对全国各地多个分公司进行统一管控&#xff0c;成本更低。信息共享更快。跨平台&#xff0c;跨电子设备 0x02 漏洞概述 智跃人力资源管理系统GenerateEntityFromTable.aspx接口处存在…

机器人RL数据集探索

机器人RL数据集探索 相关资料汇总 相关资料汇总

传统家装“死气沉沉”?VR智慧家装提供VR可视化方案

传统家装市场虽然处于成熟期&#xff0c;但是对于装修小白的户主来说&#xff0c;难以解决的痛点依旧还有很多。很多家装公司所谓的设计师&#xff0c;不一定全都具备设计知识&#xff0c;也不懂得从客户的需求出发&#xff0c;多重因素导致家装行业“死气沉沉”。 为了打破装修…

快速排序并不难

快速排序的核心框架是“二叉树的前序遍历对撞型双指针”。我们在《一维数组》一章提到过”双指针思路“&#xff1a;在处理奇偶等情况时会使用两个游标&#xff0c;一个从前向后&#xff0c;一个是从后向前来比较&#xff0c;根据结果来决定继续移动还是停止等待。快速排序的每…

uc_12_进程间通信IPC_有名管道_无名管道

1 内存壁垒 进程间天然存在内存壁垒&#xff0c;无法通过交换虚拟地址直接进行数据交换&#xff1a; 每个进程的用户空间都是0~3G-1&#xff08;32位系统&#xff09;&#xff0c;但它们所对应的物理内存却是各自独立的。系统为每个进程的用户空间维护一张专属于该进程的内存映…