[自动驾驶 SoC]-3 英伟达Orin

NVIDIA® Jetson AGX OrinTM series (资料来源:nvidia-jetson-agx-orin-technical-brief.pdf)

1 整体介绍

1) Orin SoC结构

Orin SoC,如下图所示,由一个NVIDIA Ampere architecture GPU, Arm® Cortex®-A78AE CPU, 下一代深度学习核视觉处理加速器, 视频编码器和视频解码器组成。

2) Orin和Xavier配置对比

3) AGX ORIN分为32GB、64GB两种模块

2 核心模块说明

1) GPU

GPU由两个GPC组成,共计16个SM单元,192KB L1 Cache和4MB L2 Cache。每个SM具备128个CUDA核(共计2048个-5.3 FP32 TFLOPs)和4个第三代Tensor核(共计64个-170 sparse TOPs INT8)。

2) Tensor核

 主要提供矩阵乘法累加计算,支持16个半精度HMMA和32个整型IMMA,并且支持稀疏计算。

3) TensorRT和cuDNN

TensorRT 是一个深度学习推理的运行时库和优化器,提供低的延迟和高吞吐量,用于解析训练好的模型,通过将模型量化到 INT8 格式、优化 GPU 内存和带宽利用(如内核节点融合)以及选择最佳的数据层和算法,最大化推理性能。

cuDNN提供了深度神经网络常见操作的高度优化实现,例如卷积前向和反向、交叉相关、池化前向和反向、softmax 前向和反向以及张量变换功能等。

4) DLA

DLA 2.0 提供了高效能的架构,增加了本地缓冲区,提高了能效并减少了 DRAM 带宽。同时DLA 2.0 引入了结构化稀疏性、深度卷积和硬件调度器等新特性,支持最多 105 INT8 稀疏 TOPs 性能,相比 Jetson AGX Xavier DLA 的 11.4 INT8 密集 TOPs 大幅提升。

用户可以使用 TensorRT 加速 DLA 上的模型,NVIDIA DLA 设计用于从 GPU 卸载深度学习推理,使 GPU 能够运行更复杂的网络和动态任务;TensorRT 支持在 DLA 上运行 INT8 或 FP16 的网络,并支持卷积、反卷积、全连接、激活、池化、批量归一化等层。

5) CPU

CPU使用ARM Cortex-A78AE CPU 取代了 NVIDIA Carmel CPU,包含 12 个 CPU 核心,每个核心具有 64KB 的指令 L1 缓存和 64KB 的数据缓存,以及 256KB 的 L2 缓存,每个集群还具有 2MB 的 L3 缓存,最高支持 2.2 GHz 的 CPU 频率。

6) AI性能对比

3 实例介绍

1)自动泊车系统

1.1) 环境感知:摄像头捕捉停车场景,LiDAR扫描周围环境。

处理单元:CUDA核心处理图像预处理,Tensor核心运行YOLO等物体检测模型识别停车位和障碍物。

1.2) 路径规划:计算最优泊车路径。

处理单元:ARM CPU核(可结合DLA核-支持3D建模、路径规划、语义理解等)运行路径规划算法(如 A* 或 Dijkstra 算法),生成泊车轨迹。

1.3) 传感器融合:融合摄像头和LiDAR数据,生成准确的停车场景。

处理单元:CUDA核心处理数据融合,ARM CPU核进行高层次决策生成统一环境模型。

1.4) 车辆控制:执行泊车操作。

处理单元:ARM CPU核控制转向和速度,实现平稳泊车。

2) 计算机视觉处理

NVIDIA Jetson AGX Orin 通过 PVA 和 VIC 提供了强大的计算机视觉处理能力,结合 VPI 软件库,可以灵活地在多种硬件组件上运行复杂的视觉算法,从而优化计算资源的利用。

2.1)可编程视觉加速器(PVA)

双7路 VLIW(超长指令字)矢量处理单元:可以并行处理多个指令,提高计算效率。

双 DMA 引擎:用于高效的数据传输,减少数据传输的瓶颈。

Cortex-R5 子系统:负责控制和调度任务,提供实时处理能力。

PVA 支持:滤波,对图像进行平滑或增强处理;图像扭曲,调整图像的几何形状;图像金字塔,多分辨率图像表示,用于检测不同尺度的特征;特征检测,检测图像中的关键点;快速傅里叶变换(FFT),用于频域分析。

2.2)视频成像合成器(VIC)2D 引擎

VIC 支持的图像处理功能:镜头畸变校正,增强时间噪声减少,频锐化增强,颜色空间转换,图像缩放,图像混合与合成。

2.3)视觉编程接口(VPI)

VPI 是一个软件库,旨在实现计算机视觉和图像处理算法的硬件加速。它支持在 PVA、VIC、CPU 和 GPU 上运行计算机视觉任务,从而有效地分配计算资源。例如,基本图像处理(如框滤波、卷积、图像重缩放和重映射);复杂计算机视觉算法(如 Harris 角点检测、KLT 特征跟踪、光流、背景减法等)。

2.4) 立体视差估计(Stereo Disparity Estimation)流水线示例

输入:来自立体相机的左图像和右图像。

处理步骤:

a) 镜头畸变校正和图像缩放:由 VIC 处理。

b) 颜色转换为灰度图像:由 GPU 处理。

c) 特征检测和立体匹配:由 PVA 和 NVENC 处理。

输出:生成输入图像之间的视差估计,反映场景深度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/716141.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python相关知识-logging日志、property属性、上下文管理器、生成器等

1.logging日志 目的: 1.可以很方便的了解程序的运行情况 2.可以分析用户的操作行为、喜好等信息 3.方便开发人员检查bug 级别介绍: 1.DEBUG:程序调试bug时使用 2.INFO:程序正常运行时使用 3.WARNNING:程序未按…

学会python——读取大文本文件(python实例六)

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3、读取大文本文件 3.1 代码构思 3.2 代码示例 3.3 运行结果 4、总结 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强…

基于机器学习的变频器故障诊断方法(MATLAB,Python)

变频器故障数据由MATLAB Simulink生成。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.ensemble import RandomForestClass…

UniVue更新日志:使用Carousel组件实现轮播图效果

github仓库 稳定版本仓库:https://github.com/Avalon712/UniVue 开发版本仓库:https://github.com/Avalon712/UniVue-Develop UniVue扩展框架-UniVue源生成器仓库:https://github.com/Avalon712/UniVue-SourceGenerator 更新说明 今天的更…

【面试干货】String、StringBuilder、StringBuffer 的区别

【面试干货】String、StringBuilder、StringBuffer 的区别 1、String2、StringBuffer3、StringBuilder4、性能对比5、使用建议 💖The Begin💖点点关注,收藏不迷路💖 在Java中,String、StringBuilder和StringBuffer是用…

是否要把展会客户引到国际站等付费平台?

有人问我:那些在展会来的客户,如果让我们发网站链接,是否要发公司的付费平台,比如阿里,中国制造网等? 我的建议是不要发,最好是发公司的官网链接。接着她说公司在付费平台上更新得比较频繁&…

湖北省小学毕业学籍照片采集流程及教师手机拍摄方法说明

随着教育信息化的不断推进,学籍管理也越来越规范和便捷。湖北省小学毕业学籍照片采集作为学籍管理的重要组成部分,对于确保学生信息的准确性和完整性具有重要意义。本文将详细介绍湖北省小学毕业学籍照片采集的流程,并提供教师使用手机拍摄照…

KKT基础知识

KKT条件定义 KKT条件(Karush–Kuhn–Tucker conditions)是最优化(特别是非线性规划)领域最重要的成果之一,是判断某点是极值点的必要条件。 最优化问题 要选择一组参数(变量),在满足一定的限制条件&…

个人云服务器已经被安全合规等卡脖子 建议不要买 买了必定后悔 安全是个大问题 没有能力维护

我的想法 自己买一个云服务器,先自己边做边学习,向往硅谷精神,财富与自由。如果能赚钱,就开个公司。这次到期就放弃了。 我前前后后6年花6000多元买云服务器。业余花了无数的精力,从2018到现在 ,也没有折…

【代码随想录——动态规划——第三周】

1.目标和 这里设置背包的最大长度为2100即可,因为题目中有说数组之和小于1000.但考虑到我们需要实行jnums[i]所以保守起见我们设置的数应该稍大于2000即可,这里我们设置为2100。 1.1 我的解法(粗糙了) func findTargetSumWays(n…

VMware安装Debian,Debian分区,虚拟机使用NAT模式联网,Linux设置静态IP

官网 https://www.debian.org/download stable是稳定版 win下amd64就行,macOs装arm架构的 安装Debian虚拟机 教程里没有的只管往下点就完了 哪个都行 选镜像 选安装位置 别超过宿主机内核就行 看你需求 NAT模式 虚拟 看你需求 其他的也检查一下 图形安装 选中文 继…

MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程

MoneyPrinterPlus是一款使用AI大模型技术,一键批量生成各类短视频,自动批量混剪短视频,自动把视频发布到抖音,快手,小红书,视频号上的轻松赚钱工具。 之前有出过一期基本的介绍,但是后台收到有些小伙伴说,不知道如何使用。 今天我将会手把手的详细介绍…

1.动手学习深度学习课程安排及深度学习数学基础

视频资源B站:动手学习深度学习——李沐 目录 目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导 目标 介绍深度学习景点和最新模型 LeNet AlexNet VGG ResNet LSTM BERT… 机器学习基础 损失函数,目标函数&a…

抖音矩阵系统搭建,AI剪辑短视频,一键管理矩阵账号

目录 前言: 一、抖音矩阵系统有哪些功能? 1.AI智能文案 2.多平台账号授权 3.多种剪辑模式 4. 矩阵一键发布,智能发布 5.抖音爆店码功能 6.私信实时互动 7.去水印及外链 二、抖音矩阵系统可以解决哪些问题? 总结&#xff…

如何将接口返回/n替换为react.js中的换行符

将每个/n替换为ReactJS中的一个<br>标记。cpa_ability为后端返回的字段名

[js] 数字分开显示

<div id"number-container" class"number-container"></div>const number 123.45; // 要拆分的数字&#xff08;包括小数&#xff09; const numberContainer document.getElementById(number-container);// 将数字转换为字符串&#xff0c;…

IT架构思想---架构抽象

引言 架构的抽象思维这个概念很难解释&#xff0c;希望不会翻车&#xff0c;因为太抽象了.....&#xff0c;只能尽所能了。&#xff08;为了方便说明文章中的架构均指IT架构&#xff09; 抽象的定义 抽象是从众多的事物中抽取出共同的、本质性特征&#xff0c;而舍弃…

【二维差分】2132. 用邮票贴满网格图

本文涉及知识点 二维差分 LeetCode2132. 用邮票贴满网格图 给你一个 m x n 的二进制矩阵 grid &#xff0c;每个格子要么为 0 &#xff08;空&#xff09;要么为 1 &#xff08;被占据&#xff09;。 给你邮票的尺寸为 stampHeight x stampWidth 。我们想将邮票贴进二进制矩…

租房项目之并发缺失数据问题

前奏&#xff1a;本项目是一个基于django的租房信息获取项目。本次博客牵扯到两个版本&#xff0c;集中式分布以及分布式部署&#xff08;两个版本的ui不同&#xff0c;集中式用的是老版ui&#xff0c;分布式使用的是新版ui&#xff09;&#xff1b; 项目链接&#xff1a;http…

【C++提高编程-09】----C++ STL之常用排序算法

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…