LaneNet(1):网络结构详解

前言

这是一种端到端的车道线检测方法,包括LanNet+H-Net两种网络模型。

LanNet是一种多任务模型,它将实例分割任务分解为“语义分割”和“像素矢量表示”,然后对这两个分支的结果进行聚类,得到实例分割的结果。

H-Net是一个小型网络,负责预测变换矩阵H,使用变换矩阵H来重构属于同一车道线的所有像素。也就是说,学习给定输入图像的透视变换参数,透视变换可以很好地适应斜坡道路上的车道线。

总体网络结构如下:
在这里插入图片描述

论文:Towards End-to-End Lane Detection: an Instance Segmentation Approach

开源代码:https://github.com/MaybeShewill-CV/lanenet-lane-detection?tab=readme-ov-file

开源数据集:https://github.com/TuSimple/tusimple-benchmark/issues/3

一、LanNet

LanNet对输入图像进行实例分割,其中网络结构分为两个方向,一个是语义分割,另一个是对像素进行向量表示,最后将两个分支的结果进行聚类,得到实例分割的结果。LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID。

1.1 网络结构

先看看网络结构:
在这里插入图片描述

分支1语义分割Segmentation,对像素进行二分类,判断像素属于车道线还是背景;

分支2对像素进行向量Embedding,对像素进行嵌入式表示,把图像特征表示为嵌入空间中,特征之间的关系映射在嵌入空间。

聚类,基于Mean-Shift算法实现的,把将两个分支的结果进行聚类,得到实例分割的结果。

LaneNet是基于ENet的encoder-decoder模型,如下图所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。
在这里插入图片描述

1.2 语义分割

这部分是对像素进行二分类,判断像素属于车道线还是背景;并且高度不平衡,因此参考了ENet,损失函数使用的是标准的交叉熵损失函数

设计语义分割模型时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原(估计);

Loss使用softmax_cross_entropy,为了解决样本分布不均衡的问题,使用了boundedinverseclassweight对loss进行加权:
在这里插入图片描述

其中,p为对应类别在总体样本中出现的概率,c是超参数。

Loss的设计参考了:论文ENet:ADeepNeuralNetworkArchitectureforReal-TimeSemanticSegmentation

1.3 像素映射到嵌入空间

当分割识别得到车道后,为了知道哪些像素归这条车道,哪些归那条车道,需要训练一个车道instanceembedding分支网络。它能输出一个车道线像素点距离,归属同一车道的像素点距离近,反之远,基于这个策略,可聚类得到各条车道线。

为了区分车道线上的像素属于哪条车道,为每个像素初始化一个embedding向量,并且在设计loss时,使属同一条车道线的表示向量距离尽可能小,属不同车道线的表示向量距离尽可能大

这部分的loss函数是由三部分组成:方差损失、距离损失、回归损失:
在这里插入图片描述

其中,C是车道线数量,Nc是属同一条车道线的像素点数量,μc是车道线的均值向量,xi是像素向量(pixelembedding)。

该loss函数源自于论文《SemanticInstanceSegmentationwithaDiscriminativelossfunction》

方差loss(Lvar):当像素向量(pixelembedding)xi与对应车道线均值向量μc的距离大于δv时,模型会进行更新,使得xi靠近μc;

距离loss(Ldist):当不同车道线均值向量μca和μcb之间的距离小于δd时,模型会进行更新,使得μca与μcb远离彼此;

方差loss(Lvar)使得像素向量向车道线的均值向量μc靠近,距离loss(Ldist)则会推动聚类中心远离彼此。
在这里插入图片描述

1.4 聚类

embedding(像素映射到嵌入空间)已经为聚类提供好的特征向量了,利用这些特征向量我们可以利用任意聚类算法来完成实例分割的目标。

聚类是基于Mean-Shift算法实现的,把将两个分支的结果进行聚类,得到实例分割的结果。

首先使用meanshift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分,直到将所有的车道线像素分配给对应的车道。

二、H-Net

LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到俯视图(鸟瞰图)中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,变换矩阵H只被计算一次,所有的图片使用的是相同的变换矩阵,这会导致地平面(山地,丘陵)变化下的误差。

为了解决这个问题,论文训练了一个可以预测变换矩阵H的神经网络H-Net,网络的输入是图片,输出是变换矩阵H
在这里插入图片描述

通过置0对转置矩阵进行约束,即水平线在变换下保持水平。(即坐标y的变换不受坐标x的影响)

由上式可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图所示:

在这里插入图片描述

三、模型效果

车道线检测效果,与其他模型对比
在这里插入图片描述
模型的精度高达96.4%,这个效果挺不错了。

模型速度:
在这里插入图片描述
2018年:在NVIDIA1080TI上测得的512X256图像的速度。总的来说,车道检测可以以52FPS的速度运行。检测速度比较快了,实时性较高。

2020年:添加实时分割模型BiseNetV2作为Lanenet主干,新模型在单幅图像推理过程中可以达到78fps。可以在此处找到基于BiseNetV2训练的新Lanenet模型。

模型效果:
在这里插入图片描述
语义分割和像素嵌入效果:
在这里插入图片描述

实体分割效果:
在这里插入图片描述
模型效果:
在这里插入图片描述

参考:https://segmentfault.com/a/1190000040583331/en

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/796085.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【STM32CubeMX安装教程】

【STM32CubeMX安装教程】 1. 前言2. 下载软件3. 安装配置4. 测试5. 小结 1. 前言 STM32CubeMX是一款图形化工具,可以非常轻松地配置STM32微控制器和微处理器,以及为Arm Cortex-M内核生成相应的初始化C代码,或为Arm Cortex-A内核生成部分Linu…

suricata7 rule加载(三)加载options

suricata7.0.5 加载options (msg:“HTTP Request Example”; flow:established,to_server; http.method; content:“POST”; http.uri; content:“query.php”; bsize:>9; http.protocol; content:“HTTP/1.1”; bsize:8; http.host; content:“360”; bsize:>3; class…

Java毕业设计 基于SSM vue电影订票系统小程序 微信小程序

Java毕业设计 基于SSM vue电影订票系统小程序 微信小程序 SSM 电影订票系统小程序 功能介绍 用户 登录 注册 忘记密码 首页 图片轮播 电影信息 电影详情 评论 收藏 预订 电影资讯 资讯详情 用户信息修改 电影评价 我的收藏管理 用户充值 在线客服 我的订单 管理员 登录 个人…

【微信小程序知识点】自定义构建npm

在实际开发中,随着项目的功能越来越多,项目越来越复杂,文件目录也变得很繁琐,为了方便进行项目的开发,开发人员通常会对目录结构进行优化调整,例如:将小程序源码放到miniprogram目录下。 &…

基于B站视频评论的文本分析,采用包括文本聚类分析、LDA主题分析、网络语义分析

研究主题 本研究旨在通过对B站视频评论数据进行文本分析,揭示用户评论的主题、情感倾向和语义结构,助力商业决策。主要技术手段包括Python爬虫、LDA主题分析、聚类分析和语义网络分析。首先,利用Python爬虫采集大量评论数据并进行预处理。运…

通用详情页的打造

背景介绍 大家都知道,详情页承载了站内的核心流量。它的量级到底有多大呢? 我们来看一下,日均播放次数数亿次,这么大的流量,其重要程度可想而知。 在这样一个页面,每一个功能都是大量业务的汇总点。 作为…

Mac M1安装配置Hadoop+Flink SQL环境

Flink 1.18.1 Hadoop 3.4.0 一、准备工作 系统:Mac M1 (MacOS Sonoma 14.3.1) JDK:jdk1.8.0_381 (注意:尽量一定要用JDK8,少用高版本) Scala:2.12 JDK安装在本机的/opt/jdk1.8.0_381.jdk/C…

认识R155法规(UN Regulation No. 155)-MUNIK

背景 Background 随着汽车新四化(电动化、智能化、网联化、共享化)政策的提出,大数据和人工智能等技术的发展,以及软件驱动汽车、舱驾一体、行泊一体等新型架构概念的提出,车内外智能传感器采集的大量数据&#xff08…

数据结构4.0——串的定义和基本操作

串的定义(逻辑结构) 串,即字符串(String)是由零个或多个字符组成的有序数列。 一般记为Sa1a2....an(n>0) 其中,S是串名,单引号括起来的字符序列是串的值;ai可以是字母、数字或其他字符;串中字符的个数n称为串的长度。n0时的…

观察者模式的实现

引言:观察者模式——程序中的“通信兵” 在现代战争中,通信是胜利的关键。信息力以网络、数据、算法、算力等为底层支撑,在现代战争中不断推动感知、决策、指控等各环节产生量变与质变。在软件架构中,观察者模式扮演着类似的角色…

SpringBoot实战:枚举类型转换问题

1.在controller层中完成service注入 2.调用业务层进行查询所有房间类型标签 Tag(name "标签管理") RestController RequestMapping("/admin/label") public class LabelController {Autowiredprivate LabelInfoService service;Operation(summary &qu…

dm-verity hashtree的结构

参考了:实现 dm-verity | Android Open Source Project (google.cn)。基于这个添加了一层原始数据,便于理解。 结构图如下: 对hashtree结构图的解释: dev data:表示我们的分区数据。这里我们将dev data按照指定的大…

【JAVA poi-tl-ext 富文本转word】

富文本转word 环境使用poi-tl-ext的原因富文本转word代码 环境 jdk 1.8 <dependency><groupId>io.github.draco1023</groupId><artifactId>poi-tl-ext</artifactId><version>0.4.16</version> </dependency>poi-tl-ext已经包…

学习C++,应该循序渐进的看哪些书?

学习C是一个循序渐进的过程&#xff0c;需要根据自己的基础和目标来选择合适的书籍。以下是一个推荐的学习路径&#xff0c;包含了从入门到进阶的书籍&#xff1a; 1. 入门阶段 《C Primer Plus 第6版 中文版》 推荐理由&#xff1a;这本书同样适合C零基础的学习者&#xff0…

中国蚁剑的安装(附文件)

1.下载压包&#xff08;注意两个都要下载&#xff09; 我先挂几个月&#xff0c;后续怕找不到的话&#xff0c;就自己保存网盘 链接:https://pan.baidu.com/s/1bhBe6a1_5VFYUY35XG1N9Q?pwdx9gp 提取码:x9gp 链接:https://pan.baidu.com/s/1u8CMkOORRVpCI2zJysJPQQ?pwdx9gp …

java Web学习笔记(三)

文章目录 1. 前置知识2. Vue使用vite构建项目SFC入门使用ref和.value体会响应式数据&#xff08;使用ES6和setup&#xff09; 3. Vue视图渲染技术及其语法模板语法&#xff1a;命令插值表达式渲染双标><中的文本&#xff08;还挺可爱&#xff09;属性渲染命令事件渲染命令…

内网对抗-基石框架篇域树林域森林架构信任关系多域成员层级信息收集环境搭建

知识点&#xff1a; 1、基石框架篇-域树&域林架构-权限控制-用户和网络 2、基石框架篇-域树&域林架构-环境搭建-准备和加入 3、基石框架篇-域树&域林架构-信息收集-手工和工具1、工作组(局域网) 将不同的计算机按照功能分别列入不同的工作组。想要访问某个部门的…

24/7/12总结

axios Axios 是一个基于 promise 网络请求库&#xff0c;作用于node.js 和浏览器中。 它是 isomorphic 的(即同一套代码可以运行在浏览器和node.js中)。在服务端它使用原生 node.js http 模块, 而在客户端 (浏览端) 则使用 XMLHttpRequests。 get请求: <script>function…

WordPress 主题技巧:给文章页增加“谁来过”模块。

模块功能&#xff1a; 我个人目前在做一个电影类的网站&#xff0c;在开发文章页的模版时候&#xff0c;突然觉得给文章页增加一个“谁对本电影感兴趣”的功能模块可能会比较有趣&#xff0c;这个功能有点类似于‘足迹’的感觉&#xff0c;用户可以通过这个功能&#xff0c;发…

C# Winform 系统方案目录的管理开发

在做一个中等复杂程度项目时&#xff0c;我们通常有系统全局配置&#xff0c;还要有对应的方案目录的管理和更新。 比如我们有如下需求&#xff1a;开发一个方案管理&#xff0c;可以新建、打开和保存方案&#xff0c;同时还需要保存方案中的各种文件。我设计的采用目录管理和…