【2023CANN训练营第二季】——Ascend C算子开发(进阶)微认证

1.微认证题目:

参考tensorflow的Sinh算子,实现Ascend C算子Sinh,算子命名为SinhCustom,并完成aclnn算子调用相关算法: sinh(x) = (exp(x) - exp(-x)) / 2.0
要求:
1、完成host侧和kernel侧代码实现。
2、实现sinh功能,支持float16类型输入,使用内核调试符方式调用算子测试通过。
3、使用单算子API调用方式调用SinhCustom算子测试通过
提交要求:
完成编程后,将上述实现的工程代码打包在rar包内提交,如SinhCustom.rar.

2.环境准备

我是在华为云ModelArts西南贵阳一创建的Notebook,镜像为:

mindspore_2.2.0-cann_7.0.1-py_3.9-euler_2.10.7-aarch64-snt9b

image.png

3.算子分析

算子分析的流程图如下:
image.png
对应题目,本题主要解决的是核函数代码,Kernel侧代码、Host侧代码,单算子调用时的代码。
Sinh算子的数学表达式为:sinh(x) = (exp(x) - exp(-x)) / 2.0
算子分析表格为:

image.png

整个算子分析计算过程分为三个阶段:CopyIn,Compute,CopyOut
CopyIn:搬入x到Local内存
Compute:使用Local内存进行计算
CopyOut:搬运Local计算结果到z

4.算子开发

可以参考samples仓库的Add算子,把Add算子的内核调用代码复制一份到SinhCustom

cp -r samples/operator/AddCustomSample/KernelLaunch/AddKernelInvocation/* samples/SinhCustomSample/KernelLaunch/SinhKernelInvocation

4.1核函数开发

首先修改最重要的sinh_custom.cpp
进行核函数的定义,并在核函数中调用算子类的Init和Process函数。
image.png
使用__global__函数类型限定符来标识它是一个核函数,可以被<<<…>>>调用;使用__aicore__函数类型限定符来标识该核函数在设备端AI Core上执行。
根据矢量编程范式实现算子类
image.png
基于矢量编程范式,将核函数的实现分为3个基本任务:CopyIn,Compute,CopyOut。Process函数中通过如下方式调用这三个函数。

CopyIn函数实现

image.png

Compute函数实现

image.png
Exp(xLocal, xLocal, TILE_LENGTH);:对从输入队列取出的本地张量 xLocal 进行指数运算(Exponential)。这用于计算 e^x,其中 x 是 xLocal 中的元素。TILE_LENGTH 是可能是一个常量,表示操作的长度。
Reciprocal(zLocal, xLocal, TILE_LENGTH);:计算 1/xLocal 的倒数,并将结果存储在 zLocal 中。
Muls(zLocal, zLocal, scalar, TILE_LENGTH);:将 zLocal 中的每个元素乘以标量 scalar,并将结果存储回 zLocal。

CopyOut函数实现

image.png

4.2核函数运行验证

CPU模式下执行如下命令

bash run.sh ascend910 cpu

运行结果如下:
image.png
image.png
可以看到真实值和期望值相差很小,基本没有误差。
NPU模式下执行如下命令:

bash run.sh ascend910 npu_onboard

image.png
这里报了一个aclError,不知道是不是硬件问题。

4.3创建算子工程

CANN软件包中提供了工程创建工具msopgen,我们可以输入算子原型定义文件生成Ascend C算子开发工程。
编写Sinh_Custom算子的原型定义json文件,如下:

[
{
    "op": "SinhCustom",
    "language": "cpp",
    "input_desc": [
        {
            "name": "x",
            "param_type": "required",
            "format": [
                "ND"
            ],
            "type": [
                "fp16"
            ]
        }
    ],
    "output_desc": [
        {
            "name": "z",
            "param_type": "required",
            "format": [
                "ND"
            ],
            "type": [
                "fp16"
            ]
        }
    ]
}

然后使用以下命令生成算子文件夹:

/usr/local/Ascend/ascend-toolkit/latest/python/site-packages/bin/msopgen gen -i /home/ma-user/work/samples/sinh_custom.json -c ai_core-Ascend910B2  -lan cpp -out /home/ma-user/work/samples/SinhCustom

生成的SinhCustom算子文件夹如下:
image.png

build_out文件夹是后面编译部署生成的,这里我们主要要修改的文件有:CMakePresets.json,op_host目录下的sinh_custom_tiling.h、sinh_custom.cpp、op_kernel目录下的sinh_custom.cpp。
下面分别展开:

4.4 op_kernel侧实现

Init()方法实现

可以先把Add_custom算子的kernel侧实现代码复制过来,然后在此基础上进行修改,首先是KernelSinh类的初始化代码,题目有一个输入,一个输出,修改如下:
image.png

CopyIn()方法实现

image.png

Compute()方法实现

Compute()函数是算子开发的核心,根据题目sinh(x) = (exp(x) - exp(-x)) / 2.0
Exp(xLocal, xLocal, TILE_LENGTH);:对从输入队列取出的本地张量 xLocal 进行指数运算(Exponential)。这用于计算 e^x,其中 x 是 xLocal 中的元素。TILE_LENGTH 是可能是一个常量,表示操作的长度。
Reciprocal(zLocal, xLocal, TILE_LENGTH);:计算 1/xLocal 的倒数,并将结果存储在 zLocal 中。

Compute()函数代码如下:
image.png

这里用到了Muls()方法用于矢量中每个元素与标量求积

CopyOut()方法实现

image.png

4.5 op_host侧实现

sinh_custom_tiling.h文件实现

这个文件要修改的地方是TilingData结构定义头文件的编写
image.png

sinh_custom.cpp文件实现

该文件是Tiling函数实现代码,主要修改算子原型注册代码,如下
image.png

5.算子工程编译和部署

算子kernel侧和host侧代码实现了之后,需要对算子工程进行编译,生成自定义算子安装包*.run
编译之前要修改CMakePresets.json文件下的ASCEND_CANN_PACKAGE_PATH变量,修改成你实际的CANN安装路径,我的修改如下:
image.png
修改好之后,切换到SinhCustom目录下,执行以下命令:
./build.sh
编译成功截图如下:
image.png

此时会生成一个build_out文件夹,里面有一个文件custom_opp_euleros_aarch64.run,使用以下命令部署
./custom_opp_euleros_aarch64.run
image.png

看到SUCCESS代表算子部署成功

6.使用aclnn方式调用

把AddCustom算子的AclNNInvocation文件夹复制一遍,目录位于samples/operator/AddCustomSample / FrameworkLaunch/AclNNInvocation,目录结构如下:
image.png
需要修改的文件有scripts文件下的gen_data.py,src文件下的main.cpp,op_runner.cpp

gen_data.py修改

image.png

main.cpp修改

要修改输入输出文件的位置
image.png

op_runner.cpp修改

要修改调用的算子名称,以及引入aclnn_sinh_custom.h头文件
image.png

修改完上述文件之后,就可以使用ACLNN的方式调用验证算子,进入AclNNInvocation文件夹,运行以下命令
bash run.sh
打印如下图,则代表测试通过!
image.png
可以看到真实结果和预期结果非常接近。误差很小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/262154.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

图论 | 网络流的基本概念

文章目录 流网路残留网络增广路径割最大流最小割定理最大流Edmonds-Karp 算法算法步骤程序代码时间复杂度 流网路 流网络&#xff1a; G ( V , E ) G (V, E) G(V,E) 有向图&#xff0c;不考虑反向边s&#xff1a;源点t&#xff1a;汇点 c ( u , v ) c(u, v) c(u,v)&#xff…

使用 Taro 开发鸿蒙原生应用 —— 探秘适配鸿蒙 ArkTS 的工作原理

背景 在上一篇文章中&#xff0c;我们已经了解到华为即将发布的鸿蒙操作系统纯血版本——鸿蒙 Next&#xff0c;以及各个互联网厂商开展鸿蒙应用开发的消息。其中&#xff0c;Taro作为一个重要的前端开发框架&#xff0c;也积极适配鸿蒙的新一代语言框架 —— ArkTS。 本文将…

网络安全-API接口安全

本文为作者学习文章&#xff0c;按作者习惯写成&#xff0c;如有错误或需要追加内容请留言&#xff08;不喜勿喷&#xff09; 本文为追加文章&#xff0c;后期慢慢追加 API接口概念 API接口&#xff08;Application Programming Interface&#xff0c;应用程序编程接口&…

Flink 状态管理与容错机制(CheckPoint SavePoint)的关系

一、什么是状态 无状态计算的例子&#xff1a; 例如一个加法算子&#xff0c;第一次输入235那么以后我多次数据23的时候得到的结果都是5。得出的结论就是&#xff0c;相同的输入都会得到相同的结果&#xff0c;与次数无关。 有状态计算的例子&#xff1a; 访问量的统计&#x…

【科学计算语言】实验三 Python复杂数据类型

【目的和要求】 &#xff08;1&#xff09;掌握Python语言中的组合数据类型 &#xff08;2&#xff09;掌握列表、元组、字典、集合及字符串的基本应用 &#xff08;3&#xff09;熟练运用有关序列操作的Python内置函数 【实验准备】 【实验内容】 1. 实验练习&#xff1a;掌握…

HTML5的完整学习笔记

HTML 什么是HTML&#xff1a; 作为前端三件套之一&#xff0c;HTML的全称是超文本标记语言&#xff08;Hypertext Markup Language&#xff09;。HTML是一种标记语言&#xff0c;用于创建网页。它由一系列标签组成&#xff0c;这些标签用于定义网页的结构和内容。HTML标签告诉…

[XR806开发板试用] XR806——基于FreeRTOS下部署竞技机器人先进模糊控制器

前言 很荣幸参与到由“极术社区和全志在线联合组织”举办的XR806开发板试用活动。本人热衷于各种的开发板的开发&#xff0c;同时更愿意将其实现到具体项目中。秉承以上原则&#xff0c;发现大家的重心都放在开发中的环境构建过程&#xff0c;缺少了不少实际应用场景的运用&am…

谷歌Gemini造假始末

&#x1f4a1;大家好&#xff0c;我是可夫小子&#xff0c;《小白玩转ChatGPT》专栏作者&#xff0c;关注AIGC、读书和自媒体。 在过去一年中&#xff0c;OpenAI ChatGPT引发了一股AI新浪潮&#xff0c;而谷歌则一直处于被压制的状态&#xff0c;迫切需要一款现象级的AI产品来…

【UML】第10篇 类图(属性、操作和接口)(2/3)

目录 3.3 类的属性&#xff08;Attribute&#xff09; 3.3.1 可见性&#xff08;Visibility&#xff09; 3.3.2 属性的名称 3.3.3 数据类型 3.3.4 初始值 3.3.5 属性字符串 3.4 类的操作&#xff08;Operations&#xff09; 3.4.1 参数表 3.4.2 返回类型 3.5 类的职责…

浅述无人机技术在地质灾害应急救援场景中的应用

12月18日23时&#xff0c;甘肃临夏州积石山县发生6.2级地震&#xff0c;震源深度10千米&#xff0c;灾区电力、通信受到影响。地震发生后&#xff0c;无人机技术也火速应用在灾区的应急抢险中。目前&#xff0c;根据受灾地区实际情况&#xff0c;翼龙-2H应急救灾型无人机已出动…

Kafka集群架构原理(待完善)

kafka在zookeeper数据结构 controller选举 客户端同时往zookeeper写入, 第一个写入成功(临时节点), 成为leader, 当leader挂掉, 临时节点被移除, 监听机制监听下线,重新竞争leader, 客户端也能监听最新leader leader partition自平衡 leader不均匀时, 造成某个节点压力过大, …

一套rk3588 rtsp服务器推流的 github 方案及记录 -03(完结)

opencv 解码记录 解码库使用的时候发现瑞芯微以前做过解码库对ffmpeg和gstreamer的支持 然后最近实在不想再调试Rtsp浪费时间了&#xff0c;就从这中间找了一个比较快的方案 ffmpeg 带硬解码库编译 编译流程参考文献 https://blog.csdn.net/T__zxt/article/details/12342435…

opencv静态链接error LNK2019

opencv 3.1.0 静态库&#xff0c;包括以下文件 只链接opencv_world310d.lib&#xff0c;报错 opencv_world310d.lib(matrix.obj) : error LNK2019: 无法解析的外部符号 _ippicvsFlip_16u_I8&#xff0c;该符号在函数 "enum IppStatus (__stdcall*__cdecl cv::getFlipFu…

鸿蒙系列--组件介绍之基础组件

一、通用属性和文本样式 针对包含文本元素的组件&#xff08;比如&#xff1a;Text、Span、Button、TextInput等&#xff09;&#xff0c;可以设置一些通用的文本样式&#xff0c;比如颜色&#xff1a;fontColor、大小&#xff1a;fontSize、样式&#xff1a;fontStyle、 粗细…

Spring(1)Spring从零到入门 - Spring特点,系统架构简介,两个核心概念IoC与DI(涉及管理第三方bean)

Spring&#xff08;1&#xff09;Spring从零到入门 - Spring特点&#xff0c;系统架构简介&#xff0c;两个核心概念IoC与DI&#xff08;涉及管理第三方bean&#xff09; 引入&#xff1a;单体服务器 "单体服务器的开发"通常指的是在一个单一的服务器上构建和部署整个…

微信小程序 动态设置状态栏样式

onLoad(options) {//修改状态栏标题wx.setNavigationBarTitle({title: 页面标题, //页面标题success: () > {}, //接口调用成功的回调函数fail: () > {}, //接口调用失败的回调函数complete: () > {} //接口调用结束的回调函数&#xff08;调用成功、失败…

C# SixLabors.ImageSharp.Drawing的多种用途

生成验证码 /// <summary> /// 生成二维码 /// </summary> /// <param name"webRootPath">wwwroot目录</param> /// <param name"verifyCode">验证码</param> /// <param name"width">图片宽度</…

互联网加竞赛 python+大数据校园卡数据分析

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于yolov5的深度学习车牌识别系统实现 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;4分工作量&#xff1a;4分创新点&#xff1a;3分 该项目较为新颖&am…

德人合科技 | 设计公司文件加密系统——天锐绿盾自动智能透明加密防泄密系统

设计公司文件加密系统——天锐绿盾自动智能透明加密防泄密系统 PC端访问地址&#xff1a; www.drhchina.com 一、背景介绍 设计公司通常涉及到大量的创意作品、设计方案、客户资料等重要文件&#xff0c;这些文件往往包含公司的核心价值和商业机密。因此&#xff0c;如何确保…

@vue/cli脚手架

0_vue/cli 脚手架介绍 目标: webpack自己配置环境很麻烦, 下载vue/cli包,用vue命令创建脚手架项目 vue/cli是Vue官方提供的一个全局模块包(得到vue命令), 此包用于创建脚手架项目 脚手架是为了保证各施工过程顺利进行而搭设的工作平 vue/cli的好处 开箱即用 0配置webpack babe…