小米汽车的占用网络是什么

大家好啊,我是董董灿。

昨天小米汽车开了发布会,一下子喜提十几个热搜。

图片

就在人们纷纷猜测,小米汽车的定价会不会延续小米极致性价比风格时。

雷总的一句"电池成本都不下于十几万",瞬间把人们对于小米汽车定价的幻想拉高到了 30-40 万的数量级。

如此看来,小米 SU7 汽车,妥妥的中高端车型。

这篇文章,我们不去揣测小米汽车的价格,而是想简单聊一下,在发布会中雷总提到的 "transformer + BEV + 占用网络"的智驾算法。

1、什么是 BEV

相信不少小伙伴对 transformer 已经很熟悉了,现在很多大模型。比如chatGPT 都是基于 transformer 架构来设计的。

它的主要原理就是注意力机制。注意力机制可以很好的完成输入之间的特征关联和特征融合等操作,比如一句话中多个单词的关联,一张图片多个局部的关联等等。

图片

除了 transformer 之外,雷总还提到了 BEV, 那什么是 BEV 呢?

BEV 的全称是 Bird’s Eye View,也就是鸟瞰图的意思。

目前很多智能汽车都会在中控屏上生成鸟瞰图,方便司机观察汽车周边的情况,也方便汽车对周围环境作出判断。

图片

Photo by AI

对于汽车而言,这种鸟瞰图的生成过程大概是这样的。

汽车上会布置多个高清摄像头,用来采集汽车周边多个方位和角度的图像,然后采集到的图像会送给神经网络进行处理,比如进行多个图像的特征提取和融合。

假设汽车上布置了 6 个摄像头,那么这 6 路摄像头采集的图像会同时送给神经网络来提取特征,然后在特征空间中进行计算和特征融合。

有些时候还会辅助加入一些雷达采集的数据,最终将融合之后的数据生成一张鸟瞰图。

鸟瞰图可以比较直观的反映汽车周边的环境,像是给汽车开了一个上帝视角一样。

图片

但是这种鸟瞰图是一种类似于二维的图片,而汽车本身却是一个三维的物体。

三维物体在二维平面上运动,始终会少一维的数据信息,比如汽车周边物体的高度信息。

这样就会导致很多的问题,比如说幽灵刹车。

有时候在鸟瞰图上可能什么也看不到,但是汽车会莫名其妙感知到前方有一个物体的存在而突然刹车。

出现这种现象有可能就是因为鸟瞰图丢失了数据信息而导致的,当然这不绝对。

2、占用网络

为了解决二维图像的问题,特斯拉在 2022 年的时候,发布一种全新的网络算法,叫做 Occupancy Networks,也就是占用网络。

图片

并且特斯拉利用该算法改进了自己的 AI 模型 HydraNets,下图是在网上找到的特斯拉 HydraNets 的模型大体框架。

图片

简单说明一下。

最上面的一张张图片可以看作汽车上的摄像头采集到的图片,图片经过以 Resnet 为 BackBone 的特征提取器(Extractor)之后,再经过基于 transformer 结构的多传感器特征融合层(Multicam Fusion),随后再经过视频处理模块,便可以完成一些复杂的任务,比如物体的检测、物体的3D重建等。

细节就不展开了,回到占用网络上来,说白了,占用网络可以将汽车对于周边环境的感知能力,由鸟瞰图的 2D 感知升级为 3D 感知

小米汽车的占用网络,大抵也是如此。

这样的话将汽车放置在一个三维的环境中,它便能够感知到更多周边环境信息。

3、其他

去年7月的时候,我曾经写过一篇关于自动驾驶的文章:自动驾驶的"第三眼美女"什么时候才能出现?

当时对自动驾驶汽车未来的发展,给出来几个小结论,当然这也是很多人都知道的:

芯片和算法,是实现自动驾驶的大脑。

高精地图和传感器,是自动驾驶的五官。 

操作系统是自动驾驶的肌肉。 

整车机械底盘线控是自动驾驶的神经骨骼。

董董灿,公众号:董董灿是个攻城狮自动驾驶的"第三眼美女"什么时候才能出现?

结合小米汽车的发布会,几乎很好的印证了这几点:

在芯片方面,小米汽车采用了英伟达的 Orin X 芯片,算力达到了 500+Tops。

算法方面采用了本文提到的“Transfomer + BEV + 占用网络”。

高精地图方面,小米开发了小米道路大模型,可以实时生成道路拓扑,效果媲美高精地图。

图片

传感器方面小米汽车用到了激光雷达、11 颗高清摄像头和 3 颗毫米波雷达,所以汽车智驾的解决方案也是基于雷达+视觉来实现的。

操作系统方面采用了小米自己的澎湃 OS,他们还还自研了底盘控制算法等等。

总的来说,此次发布会算是小米造车交出的第一份答卷,至于汽车是否真的如发布会所说那样,还要经过时间的检验。

注: 本文非小米汽车广告,以上文字仅代表个人观点,欢迎留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/302866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CMake入门教程【核心篇】静态库 (.a, .lib)

😈「CSDN主页」:传送门 😈「Bilibil首页」:传送门 😈「动动你的小手」:点赞👍收藏⭐️评论📝 文章目录 概述创建静态库添加静态库到你的项目完整代码示例实战使用技巧与注意事项总结与分析概述 静态库在C++开发中扮演着重要的角色。它们通常以.a(在Unix-like系统

新手练习项目 4:简易2048游戏的实现(C++)

名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder) 目录 一、效果图二、代码(带注释)三、说明 一、效果图 二、代码(带…

MYSQL篇--索引高频面试题

mysql索引 1什么是索引? 索引说白了就是一种数据结构,可以协助快速查询数据,以及更新数据库表中的数据,更通俗的来说索引其实就是目录,通过对数据建立索引形成目录,便于去查询数据,而mysql索引…

静态网页设计——旅游景点介绍(HTML+CSS+JavaScript)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 感谢大佬的视频: https://www.bilibili.com/video/BV1f64y1N7uH/?vd_source5f425e0074a7f92921f53ab87712357b 使用技术:HTMLCSSJS(…

虚拟机VMware安装Linux

关于安装,安装版本是CentOS 7,选择最小安装即可 第一步:选择创建新的虚拟机 第二步:默认典型,点击下一步 第三步:选择稍后安装操作系统 第四步:选择Linux和版本 第五步:输入虚拟机名…

初识Kafka

1.初识kafka 官网:Apache Kafka Apache Kafka是一个分布式流处理平台,最初由LinkedIn开发并于2011年开源。它主要用于解决大规模数据的实时流式处理和数据管道问题。 Kafka是一个分布式的发布-订阅消息系统,可以快速地处理高吞吐量的…

杨中科 ASP.NET Core前后端分离开发

一、 前后端分离 1、传统MVC开发模式: 前后端的代码被放到同一个项目中,前端人员负责编写页面的模板,而后端开发人员负责编写控制器和模型的代码并且“套模板”。 缺点: 互相依赖,耦合性强,责任划分不清。 2、主流的“前后端分离…

西门子WinCC的C脚本——对象的事件任务

1、 全局脚本编辑器; 2、 对象的属性任务; 3、 对象的事件任务。 本文探讨一下用C脚本来实现对象的事件任务。 一、例程说明引文:博途工控人平时在哪里技术交流博途工控人社群 如图1所示,为本例程的运行画面。本例程实现以下…

【MATLAB第89期】基于MATLAB的差分自回归滑动平均模型ARIMA时间序列预测模型含预测未来

【MATLAB第89期】基于MATLAB的差分自回归滑动平均模型ARIMA时间序列预测模型含预测未来 往期文章 【MATLAB第82期】基于MATLAB的季节性差分自回归滑动平均模型SARIMA时间序列预测模型含预测未来 一、模型介绍 1、模型简介 差分自回归移动平均模型(Autoregressiv…

外包做了1个月,技术退步一大半了。。。

先说一下自己的情况,本科生,20年通过校招进入深圳某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

【mysql】—— 事务

目录 (一)前言 (二)事务的理解 1、为什么会出现事务 2、什么是事务? 3、事务的版本支持 4、事务提交方式 (三)事务常见操作方式 1、正常演示 - 证明事务的开始与回滚 2、非正常演示…

CSAPP cache lab - Optimizing Matrix Transpose

CSAPP cache lab part B 矩阵转置 矩阵转置是一种操作,它将矩阵的行和列互换位置,即将原始矩阵的行变为转置矩阵的列,将原始矩阵的列变为转置矩阵的行。转置操作可以通过改变矩阵的布局来方便地进行某些计算和分析。 假设有一个mn的矩阵A&…

Qt读取文件对比:每次获取自定义的长度和使用系统的API,耗时对比

0. 前言 在编程过程中,经常遇到文件读写操作,太频繁了。每次也都写的不一样。 突发奇想,想测试下几种不同的读取文件的效率。 测试以下三种方式读取文件效率: 自定义读取文件耗时使用QFile类API读取文件耗时使用QTextStream类AP…

【BIAI】Lecture 5 - Auditory system

Lecture 5 - Auditory system 专业术语 auditory system 听觉系统 pinna 耳廓 auditory canal 耳道 tympanic membrane 鼓膜 cochlea 耳蜗 ossicles 听骨 auditory-vestibular nerve 前庭神经 oval window 椭圆窗 attenuation reflex 衰减反射 tensor tympani muscle 鼓膜张肌…

那些年听烂了的名词之“高可用“

那些年听烂了的名词之"高可用" 引言什么是可用性 ?哪些风险会影响系统的可用性 ?如何应对这些风险,从而确保系统的可用性 ?Phase: 设计做好容灾和多活处理做好容错设计做好资源隔离做好扩展性设计做好数据一致性处理 Phase: 预防做…

适配器Adapters

1.适配器作用 主要是对底层的东西进行改造 2.适配器种类:容器适配器,迭代器适配器,仿函数适配器 2.1容器适配器: stack,queue他们两的底层结构都为deque,deque有好多功能,而stack&#x…

如何将支持标准可观测性协议的中间件快速接入观测

前言 作为一名云原生工程师,如何将支持标准可观测性协议的中间件快速接入观测云呢?答案是只需要三步。 首先,需要确定您要观测的中间件类型。支持标准可观测性协议中间件可通过观测云的 DataKit 采集到中间件的关键指标。有些中间件自带可观…

文件系统与日志分析

一,文件系统 (一)inode 和block概述 1,文件数据包括元信息与实际数据 2,文件存储在硬盘上,硬盘最小存储单位是“扇区”,每个扇区存储512字节 3,block (块) 连续的八个扇区组成一…

Java常用类---包装类

包装类 包装类简介 Java语言是典型的面向对象编程语言,但是其中的8种基本数据类型并不支持面向对象编程,基本类型数据不具备"对象"的特性,即:没有携带属性以及没有方法可以调用。 为了解决上述问题,java为…

【Dubbo3高级特性】「微服务云原生架构」带你从零基础认识搭建公司内部服务用户中心体系(实战指南-01)

基础服务-用户中心 什么是用户中心? 用户中心,在我们的概念里面范围比较的广泛,包含了用户信息、账号信息以及租户信息的管理控制,在我们的总体设计里面,如果设计的边界较为紧密,也可以将权限的部分功能R…