性能优化-HVX架构简介

来自 「发表于知乎专栏《移动端算法优化》」

本文主要介绍Hexagon DSP的HVX技术,旨在通过简单的语言讲清HVX技术。

🎬个人简介:一个全栈工程师的升级之路!
📋个人专栏:高性能(HPC)开发基础教程
🎀CSDN主页 发狂的小花
🌄人生秘诀:学习的本质就是极致重复!

目录

一、Hexagon DSP

A. 高通 SOC 架构图

B. HVX 有哪些优势?

C. HVX 可以用来做什么?

二、DSP 硬件架构

A. HVX 架构 - 线程模型

B. HVX 架构 - 内存

C. HVX 架构 - SIMD 扩展

三、HVX软件架构

A. 远程过程调用(RPC)

B. FastRPC

四、总结


一、Hexagon DSP

Hexagon 是高通公司数字信号处理器 (DSP) 产品系列的品牌名称。

Hexagon 也称为 QDSP6,代表“第六代数字信号处理器”。 第一代 QDSP6 V1 在 2006 年便已经推向市场,距现在已经过去十几年。据高通称,Hexagon 架构旨在为各种应用提供低功耗的性能,用于高通骁龙芯片,面向智能手机、汽车、可穿戴设备和其他移动设备,也用于蜂窝电话网络的组件。

A. 高通 SOC 架构图

高通骁龙 SOC 架构图

本篇中主要以 COMPUTE DSP 为核心展开讲述。

  • 模块 DSP 主要包含主处理器(标量处理器)、协处理器 HVX(Hexagon Vector Extensions 矢量处理器)及其他处理核心。

高通几款主流芯片的 DSP 参数

B. HVX 有哪些优势?

  • 更强的数据并行处理能力,1024b 指令位宽,且有多个线程可并行,线程里面每个 packet 可同时并行执行四条指令。
  • 更低的功耗。
  • 更高的运行稳定性

Single DSP/HVX 680 (725MHz) VS Quad Krait CPU (2.65GHz)

C. HVX 可以用来做什么?

HVX 以其优越的特性,能完美支持多个领域,比如虚拟现实、增强现实、图像处理、视频处理、计算视觉等等等。

二、DSP 硬件架构

如上图所示,我们所开发的主要涉及三个硬件资源:

  • 主处理器(标量处理单元)
  • HVX 协处理器(矢量处理单元)
  • memory (VTCM 等)

A. HVX 架构 - 线程模型

  • 主处理器主要负责标量运算,有 4 个(目前新架构已调整至 6 个)硬件线程(每个拥有 4 路 VLIW,共享 L1/L2)。
  • 向量化运算由 2 个 HVX context 组成(目前新架构已调整至 4 个),分别会被多个标量线程控制。
  • 主处理器和 HVX 都是可以有多个软件线程,由 QURT 实时操作系统进行硬件线程选择及调度,开发者不可控。

B. HVX 架构 - 内存

  • Vector 单元可以直接访问 L2 cache
可以有效降低大块图像内存在 L1 上的平铺开销
提供单指令周期数据加载使用
可以支持全带宽
简化编程难度
  • L1/L2 由硬件保持同步
  • 提供 DDR 到 L2 cache 的流式预加载
  • Vector 单元支持灵活的加载存储操作
非对齐方式读写
基于字节的条件状态判断
  • (VTCM)向量化 TCM 支持
支持 vscatter/vgather 指令。
相对于 L2 cache,数据可以常驻,不存在数据刷出缓冲的问题。
支持 vmem 和 vmemu 指令直接访问。

C. HVX 架构 - SIMD 扩展

  • 强大的 SIMD 扩展支持
支持 1024b SIMD * 4 Vector-slot VLIW
4096 result bits/cycle
  • 支持 256 8x8 mpy,64 16x16 mpy

  • 拥有 32 个 1024b 寄存器 R0-R31,4个判断寄存器 P0-P3 。
  • 支持 8/16/32/64-bits 的定点运算。
  • 提供特殊的 ISA
滑窗滤波指令
LUT 指令
直方图指令等

三、HVX软件架构

上图为 HVX 软件架构,主要分以下几个部分:

  • User Application模块,host 端算法实现,主要作用是触发 FastRPC 调用,调度device 应用。
  • FastRPC 模块,远程调用模块,实现 host 与 device 之间的通信,把 device 端算法 so 库从 host 端动态加载到 device 设备,host 调用 device 时会触发 FastRPC 调用,FastRPC 调用在 device 端会创建一个任务进程,完成 host 与 device 之间的调用过程。host 端会阻塞等待 device 端执行完成,属于阻塞等待。
  • User Application (Hexagon SO) 模块,device 端算法实现,通过编译会生成一个 Hexagon so 文件。主要用于 device 端算法运行,同时还包含一系列辅助 API 接口等。
  • libdspCV_skel.so,这块主要是 dspcv 模块,在 Hexagon SDK 中的一个库文件,用来控制 device 端部分资源。例如时钟控制、多线程等功能封装。
  • QuRT RTOS 模块,QuRT 的作用,主要负责系统资源维护,使用最多的主要是线程调用及 VTCM 等资源,根据线程的优先级将软件线程调度到硬件线程上,由这个 QuRT 操作系统来调度。
  • CDSPPM & DCVS V2 模块,功率管理模块,主要提供时钟带宽的投票,用来管理时钟、power。
  • Hardware thread,HVX context,最底层的硬件线程和HVX句柄。

A. 远程过程调用(RPC)

在介绍 HVX 动态加载过程之前先简单介绍远程调用的过程。远程调用,简单的理解就是一个节点请求另一个节点提供的服务。一个节点调用另一个节点的函数。

不在同一地址空间中,不能像本地调用一样直接调用函数,本地调用参数传递直接给到寄存器或者是压栈,传给被调用函数。但是远程调用不能这样直接调用。

远程调用时,首先客户端需要告诉服务器,需要调用函数,这里函数和进程 ID 存在一个映射,客户端远程调用的时候,需要查一下函数,找到对应的 ID,然后执行函数的代码。

客户端需要把本地参数传给远程函数,本地调用的过程中,直接压栈即可,但是在远程调用过程中不在同一个内存里,无法直接传递函数的参数,因此需要客户端将要调用的函数名以及参数打包,然后通过网络发送到服务器。

服务器解包数据,得到调用的函数以及参数,运行函数,并将结果打包,通过网络发送到客户端。

客户端解包数据,得到函数结果。

B. FastRPC

跟 RPC 的调用类似,通常算法会编译成两个库,一个在 host 端运行的 Stub 库,一个在 device 端运行的 Skel 库。两个库都会存放在设备的 host 文件系统中,在每个 host 端的线程中,host端第一次调用 device 端应用时, FastRPC 会将 device 端的 Skel 库动态加载到 device 端(这个操作会有额外耗时,所以初始化操作可异步进行)。然后,device 端的会根据 domain 信息进行应用匹配,并调用相应的算法,host 端会阻塞等待 FastRPC 调用结束。FastRPC 函数及结构体接口由 IDL 文件来映射(关于IDL 文件,将在后续内容进行讨论)。

host 端与 device 端数据零拷贝操作由高通基于 ION/DMA_BUF 实现,虚实转换由 SMMU 来进行映射完成,降低了开发者的使用难度。

FastRPC架构

FastRPC 用来作为两个处理器 host 和 device 的通信,每次触发 FastRPC 需要 0.5~2ms 的额外开销,尽量少触发 FastRPC 调用,函数调用尽量合并在 device 端去调用。

四、总结

通过前面的介绍我们了解到了高通 HVX 硬件架构、软件架构以及整个程序运行时的动态加载过程,这些都是常用异构调用的流程,需要仔细理清其中的调用逻辑及过程。

期望大家都能有所收获。

🌈我的分享也就到此结束啦🌈
如果我的分享也能对你有帮助,那就太好了!
若有不足,还请大家多多指正,我们一起学习交流!
📢未来的富豪们:点赞👍→收藏⭐→关注🔍,如果能评论下就太惊喜了!
感谢大家的观看和支持!最后,☺祝愿大家每天有钱赚!!!欢迎关注、关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/344469.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL索引特性】

文章目录 1. 没有索引,可能会有什么问题2. 认识磁盘2.1 MySQL与存储2.2 先来研究一下磁盘:2.3 磁盘随机访问(Random Access)与连续访问(Sequential Access) 3. MySQL 与磁盘交互基本单位4. 建立共识5. 索引的理解5.1 建立测试表5.2 插入多条记录5.3 查看…

宝马X5原车氙气灯升级采用搭载FP7208升压LED驱动模块的双光透镜,效果立竿见影

目录 一、LED车灯的内部组成结构 二、FP7208驱动板详解 三、FP7208的优势 1.模拟和数字调光、无频闪 2.拥有多种功能,有效提高LED灯珠寿命 结论: 在夜晚的道路上,车灯的亮度对于驾驶安全至关重要。然而,许多车主常常对汽车灯…

网络组件、设备和关系网络图【推荐】

目录 网络上的设备: 设备和台式计算机: 防火墙: 服务器: 集线器和交换机: 路由器: 调制解调器和无线接入点调制解调器: 无线接入点: 网络架构(有时称为网络设计&…

【思路合集】talking head generation+stable diffusion

1 以DiffusionVideoEditing为baseline: 改进方向 针对于自回归训练方式可能导致的漂移问题: 训练时,在前一帧上引入小量的面部扭曲,模拟在生成过程中自然发生的扭曲。促使模型查看身份帧以进行修正。在像VoxCeleb或LRS这样的具…

学会使用ubuntu——ubuntu22.04使用WebCatlog

Ubuntu22.04使用WebCatlog WebCatlog是适用于Gnu / Linux,Windows或Mac OS X系统的桌面程序。 引擎基于铬,它用于在我们的桌面上处理Web服务。简单点就是把网页单独一个窗口出来显示,当一个app用。本文就是利用WebCatlog安装后的notion编写的…

知识图谱符号表示比较:特性图、RDF和OWL

目录 前言1 特性图:灵活的图结构表示1.1 优势与灵活性1.2 存储优化与查询优势1.3 挑战:缺乏工业标准支持 2 RDF(Resource Description Framework):面向Web的数据标准2.1 三元组结构的优势2.2 语义标准与词汇丰富性2.3 …

为你推荐十款顶级CAD制图软件,助力绘图工作更轻松!

市场上有各种各样的CAD绘图软件。国外和国内的相关软件都比较成熟,但目前CAD三维绘图还略有欠缺。这里推荐的10款非常好用的CAD绘图软件,包括支持2D和3D的,大部分都是免费的CAD绘图工具,还有一些功能完善的收费软件。点击下面的软…

增删改查接口

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 增删改查 RestController RequestMapping("system/mappingCode") Slf4j Api(tags "系统管理 - 映射码") public class SystemMappingCodeEndpo…

设备通过GB28181注册到EasyCVR,平台看不到设备信息的排查方法汇总

智慧安防平台EasyCVR能在复杂的网络环境中(专网、局域网、广域网、VPN、公网等)将前端海量的设备进行统一集中接入与视频汇聚管理,平台支持设备通过4G、5G、WIFI、有线等方式进行视频流的接入与传输,支持的接入协议包括&#xff1…

【Elasticsearch篇】详解使用RestClient操作索引库的相关操作

文章目录 🍔什么是Elasticsearch🌺什么是RestClient🎆代码操作⭐初始化RestClient⭐使用RestClient操作索引库⭐使用RestClient删除索引库⭐使用RestClient判断索引库是否存在 🍔什么是Elasticsearch Elasticsearch是一个开源的分…

OpenCV第 1 课 计算机视觉和 OpenCV 介绍

文章目录 第 1 课 计算机视觉和 OpenCV 介绍1.机器是如何“看”的2.机器视觉技术的常见应用3.图像识别介绍4. 图像识别技术的常见应用5.OpenCV 介绍6.图像在计算机中的存储形式 第 1 课 计算机视觉和 OpenCV 介绍 1.机器是如何“看”的 我们人类可以通过眼睛看到五颜六色的世界…

【新闻感想】谈一下PandoraNext的覆灭(潘多拉Next-国内可访问的免费开放GPT共享站将于2024年1月30日关闭)

文章目录 悲报:TIME TO SAY GOODBYE!PandoraNext!PandoraNext作者言:你们赢了,但我却没有输我如何了解到PandoraNext的合照留念于是开始逆向! 悲报:TIME TO SAY GOODBYE!PandoraNext…

前端数据结构与算法总结<week three>

标题没有错哈哈 还多了零,想概括得更全面一点~ 零、String 字符串 0.1 验证回文串 0.1.1 思路 将原始字符串转化为只有小写字母和数字字符串,利用双指针进行比对 0.1.2 步骤 设置正则表达式进行匹配将不符合正则表达式的去掉头尾比较 0.1.3 代码 …

C++ STL之list的使用及模拟实现

文章目录 1. 介绍2. list类的使用2.1 list类对象的构造函数2.2 list类对象的容量操作2.3 list类对象的修改操作2.4 list类对象的访问及遍历操作 3. list类的模拟实现 1. 介绍 英文解释: 也就是说: list是可以在常数范围内在任意位置进行插入和删除的序列…

解决国内 github.com 打不开的准确方法

** 下载watt toolkit, 选择‘github’,点击‘一键加速’,很简单方便 **

第137期 Oracle的数据生命周期管理(20240123)

数据库管理137期 2024-01-23 第137期 Oracle的数据生命周期管理(20240123)1 ILM2 Heat Map3 ADO4 优点5 对比总结 第137期 Oracle的数据生命周期管理(20240123) 作者:胖头鱼的鱼缸(尹海文) Orac…

(学习日记)2024.01.22:各类型占用字节 与 指针

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

SSM:Spring + Spring MVC + MyBatis 的整合

SSM 前言整合 前言 在完成 Spring 、Spring MVC 与 MyBatis 基础知识的学习后,下面简单介绍 SSM 框架的整合使用。 整合 SSM,是 Java 开发中常用的一个 Web 框架组合,用于构建基于 Spring 和 MyBatis 的 Web 应用( Spring MVC …

Zabbix分布式监控系统

实验过程 ps: 阿里云盘Xnode1获取 xnode1 https://www.alipan.com/s/HgLXfoeBWG2 提取码: eb70 1、xnode1克隆两台虚拟机并修改ip zabbix-server192.168.224.3 zabbix-agent192.168.224.4 2、修改主机名 [rootlocalhost ~]# hostnamectl set-hostname zabbix-se…

旧衣服回收小程序开发

随着人们的消费理念逐渐提升,每个家庭的闲置衣物每年就能够达到30公斤左右,这也促进了我国旧衣回收行业的发展。近几年我国的旧衣回收市场规模在300-400亿元,发展潜力较大。 旧衣回收行业是当下的环保型商业模式,商业价值较为可观…