带着GPT-4V(ision)上路,自动驾驶新探索

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

在这里插入图片描述

GitHub | https://github.com/PJLab-ADG/GPT4V-AD-Exploration

arXiv | https://arxiv.org/abs/2311.05332

自动驾驶技术的追求取决于对感知、决策和控制系统的复杂集成。传统方法,无论是数据驱动还是基于规则的方法,都因其无法把握复杂驾驶环境和其他道路使用者意图的能力而受到阻碍

这一点尤其是在发展常识推理和对安全可靠的自动驾驶所必需的微妙场景理解方面,一直是一个重要的瓶颈。视觉语言模型(VLM)的出现代表着实现完全自主驾驶汽车的一个新领域。本报告对最新的 VLM 技术进行了详尽的评估,并探讨了其在自动驾驶场景中的应用

作者团队研究了该模型理解和推理驾驶场景、做出决策,并最终充当驾驶员角色的能力。涵盖从基本场景识别到复杂因果推理和在不同条件下实时决策的全面测试。研究结果显示,与现有的自动驾驶系统相比,视觉语言模型在场景理解和因果推理方面表现出色

文章展示了处理分布之外场景、识别意图并在实际驾驶环境中做出明智决策的潜力。然而,仍然存在一些挑战,特别是在方向判断、交通灯识别、视觉引导和空间推理任务方面。这些局限性强调了进一步的研究和开发的必要性

NExT-Chat: An LMM for Chat, Detection and Segmentation

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.04498

大型语言模型(LLMs)的发展极大地推动了多模态理解领域的进步,使得大型多模态模型(LMMs)不断涌现。为了提高对视觉的理解水平,近期的研究将通过将物体边界框坐标表示为一系列文本序列pixel2seq)使得LMMs配备了区域级别的理解能力

在本文中,引入了一种称为 pixel2emb 方法的物体定位建模新范例,其中要求 LMM 输出位置embedding,然后通过不同的解码器对其进行解码。允许在多模态对话中使用不同的位置格式(如bounding boxesmask

此外,这种embedding-based的位置建模可以结合检测和分割等定位任务。在资源有限的场景中, pixel2emb 在位置输入和输出任务中表现出比SOTA方法更优越的性能。通过利用所提出的 pixel2emb 方法,还训练了一个名为 NExT-Chat 的 LMM,并展示了它处理多任务(如视觉引导、场景描述和基础推理)的能力

Video Instance Matting

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.04212

传统的视频抠图为视频帧中出现的所有实例输出一个 alpha 遮罩。虽然视频实例分割提供了时间一致的实例掩模,但由于应用了二值化,其结果对于抠像应用来说并不理想

为了解决这个问题,本文提出了视频实例抠图(VIM),即在视频序列的每一帧中估计每个实例的 alpha 抠图。具体的,提出 MSG-VIM,即 Mask Sequence Guided Video Instance Matting 神经网络,作为 VIM 的新基线模型

MSG-VIM 利用混合的掩模增强来使预测对不准确和不一致的掩模引导更具有鲁棒性。它结合了时间掩模和时间特征引导,以提高 alpha 抠图预测的时间一致性。此外,建立了一个新的 VIM 基准,称为 VIM50,其中包括 50 个视频剪辑,具有多个人类实例作为前景对象

为了评估在 VIM 任务上的性能,引入了一个度量标准,称为 Video Instance-aware Matting Quality(VIMQ)。所提 MSG-VIM 在 VIM50 上构建了一个强有力的baseline,并在很大程度上优于现有方法。该项目开源在

https://github.com/SHI-Labs/VIM

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

在这里插入图片描述

arXiv | https://arxiv.org/abs/2311.02077

本文提出 EmerNeRF,这是一种简单而强大的方法,用于学习动态驾驶场景的时空表示。基于神经场,EmerNeRF 通过自助引导同时捕捉场景几何、外观、运动和语义

EmerNeRF 依赖于两个核心组件:

  • 首先,将场景分为静态场和动态场。这种分解是通过自我监督产生的,使模型能够从一般的野外数据源中学习
  • 其次,EmerNeRF 从动态场中参数化一个引导流场,并使用该流场进一步聚合多帧特征,提高动态对象的渲染精度

将这三个场(静态、动态和流)耦合在一起使 EmerNeRF 能够自给自足地表示高度动态的场景,无需依赖地面真值对象注释或预训练的动态对象分割或光流估计模型。本文方法在传感器模拟中实现了最先进的性能,在重建静态(+2.93 PSNR)和动态(+3.70 PSNR)场景时显著优于先前的方法

此外,为了增强 EmerNeRF 的语义泛化,将 2D 视觉基础模型特征提升到 4D 时空,并解决现代 Transformers 中的一般位置偏差,显著提高了 3D 感知性能(例如,在occupancy预测准确度上相对提高了 37.50%)。最后,构建了一个多样且具有挑战性的120-sequence数据集,以在极端和高度动态的环境中对神经场进行基准测试

Holistic Evaluation of Text-To-Image Models

在这里插入图片描述

项目地址 | https://crfm.stanford.edu/heim/v1.1.0
GitHub | https://github.com/stanford-crfm/helm
arXiv | https://arxiv.org/abs/2311.04287

最近的文本到图像模型令人惊叹的质量改进引起了广泛的关注。然而,他们缺乏对其能力和风险的全面定量了解。为了填补这一空白,本文引入了一个新的基准:文本到图像模型的整体评估(HEIM)

虽然之前的评估主要关注文本图像对齐和图像质量,但作者确定了 12 个方面,包括文本与图像的对齐、图像质量、美感、独创性、推理能力、知识水平、偏见、有害信息、公平性、稳健性、多语言支持和效率

他们策划了62个涵盖这些方面的场景,并在这一基准测试中评估了26个最先进的文本到图像模型。结果显示,没有单一模型在所有方面都表现出色,不同模型展现出不同的优势

以上就是本期全部内容,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197313.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计】nodejs+vue音乐播放器系统 微信小程序83g3s

本系统的设计与实现共包含12个表:分别是配置文件信息表,音乐列表评论表信息表,音乐论坛信息表,歌手介绍信息表,音乐资讯信息表,收藏表信息表,token表信息表,用户表信息表,音乐类型信…

某东大厂面试js手写题【手写代码附带注释,放心食用,博主亲测】

文章目录 前言js实现push方法js实现订阅发布手写防抖节流手写reduce方法后言 前言 hello world欢迎来到前端的新世界 😜当前文章系列专栏:前端面试 🐱‍👓博主在前端领域还有很多知识和技术需要掌握,正在不断努力填补技…

Apache POI(处理Miscrosoft Office各种文件格式)

文章目录 一、Apache POI介绍二、应用场景三、使用步骤1.导入maven坐标2.写入代码讲解3.读取代码讲解 总结 一、Apache POI介绍 Apache POI 是一个处理Miscrosoft Office各种文件格式的开源项目。简单来说就是,我们可以使用 POI 在 Java 程序中对Miscrosoft Office…

SpringBoot——模板引擎及原理

优质博文:IT-BLOG-CN 一、模板引擎的思想 模板是为了将显示与数据分离,模板技术多种多样,但其本质都是将模板文件和数据通过模板引擎生成最终的HTML代码。 二、SpringBoot模板引擎 SpringBoot推荐的模板引擎是Thymeleaf语法简单&#xff0…

LCM-LoRA模型推理简明教程

潜在一致性模型 (LCM) 通常可以通过 2-4 个步骤生成高质量图像,从而可以在几乎实时的设置中使用扩散模型。 来自官方网站: LCM 只需 4,000 个训练步骤(约 32 个 A100 GPU 小时)即可从任何预训练的稳定扩散 (SD) 中提取出来&#…

距离向量路由协议——IGRP和EIGRP

IGRP-内部网关路由协议 IGRP(Interior Gateway Routing Protocol,内部网关路由协议)是一种动态距离向量路由协议,它是Cisco公司在20世纪80年代中期设计的,是Cisco专用路由协议。目前在Cisco高版本的IOS已经对IGRP不提…

python加速方法:GPU加速(numba库)Demo及编写注意事项

上周使用GPU加速了一个算法,效果特别惊艳,由于算法代码本身没有太大参考价值,所以这里只记录了一些心得体会,以便后续遇到问题进行参考排查 numba加速代码编写注意事项 numba加速代码编写一定要注意: 1、开辟空间&am…

用通俗的方式讲解Transformer:从Word2Vec、Seq2Seq逐步理解到GPT、BERT

直到今天早上,刷到CSDN一篇讲BERT的文章,号称一文读懂,我读下来之后,假定我是初学者,读不懂。 关于BERT的笔记,其实一两年前就想写了,迟迟没动笔的原因是国内外已经有很多不错的资料&#xff0…

nodejs之express学习(1)

安装 npm i express使用 // 导入 const express require(express) // 创建应用 const app express() // 创建路由 app.get(/home,(req,res)>{res.end("hello express") }) app.listen(3000,()>{console.log("服务已启动~") })路由的介绍 什么是…

leetCode 226.翻转二叉树

给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 226. 翻转二叉树 - 力扣(LeetCode) 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1] 示例 2: 输入:root…

【栈和队列(1)(逆波兰表达式)】

文章目录 前言什么是栈(Stack)栈方法栈的模拟实现链表也可以实现栈逆波兰表达式逆波兰表达式在栈中怎么使用 前言 什么是栈(Stack) 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0…

智慧化工~工厂设备检修和保全信息化智能化机制流程

化工厂每年需要现场检修很多机器,比如泵、压缩机、管道、塔等等,现场检查人员都是使用照相机,现场拍完很多机器后,回办公室整理乱糟糟的照片,但是经常照了之后无法分辨是哪台设备,而且现场经常漏拍&#xf…

毫米波雷达DOA角度计算-----MUSIC算法

MUSIC算法如下: txNum :发射天线 2个 ,rxNum:接收天线 4 个 。 ant : 为目标点的 天线 接收数据 , 为 8*1矩阵。 A ant;d 0.5;M 1; % # 快拍数ang_ax -90:90; % 角度坐标% 接收信号方向向量for k1:…

vr中小学智慧教育仿真平台大大减轻教师备课负担

在教育领域,将VR虚拟现实、AR增强现实和元宇宙技术融合到在线教育的VR云课堂智慧学习平台,通过为学生和教师提供了一个全新的、沉浸式的学习环境,极大地改善了传统的教学方式和学习体验,正成为改革的重要力量。 课程资源云平台拥有…

类指针压缩空间

一、类指针压缩介绍 压缩指针,指的是在 64 位的机器上,使用 32 位的指针来访问数据(堆中的对象或 Metaspace 中的元数据)的一种方式。 对象头中的 Class Pointer 默认占 8 个字节,开启 -XX:UseCompressedOops 后&…

零基础学Python第三天||写一个简单的程序

通过对四则运算的学习,已经初步接触了Python中内容,如果看官是零基础的学习者,可能有点迷惑了。难道敲几个命令,然后看到结果,就算编程了?这也不是那些能够自动运行的程序呀? 的确。到目前为止…

leetCode 226.翻转二叉树 递归 + 非递归 + 前中后序 + 层序遍历 【深度和广度优先遍历】

我的往期文章: leetCode 226.翻转二叉树-CSDN博客https://blog.csdn.net/weixin_41987016/article/details/134613347?spm1001.2014.3001.5501 (一)递归做法(深度) C代码:前序遍历 class Solution { pu…

酒水代理商城小程序开发搭建攻略

随着互联网的快速发展,线上商城已成为越来越多人的选择。对于酒水代理行业来说,拥有一个专属的线上商城小程序能够大大提升业务效率,拓展销售渠道。本文将手把手教你如何开发搭建一个酒水代理商城小程序。 步骤一:登录乔拓云网后台…

简要介绍Spring原生框架与Spring是轻量级框架的原因

😉😉 学习交流群: ✅✅1:这是孙哥suns给大家的福利! ✨✨2:我们免费分享Netty、Dubbo、k8s、Mybatis、Spring...应用和源码级别的视频资料 🥭🥭3:QQ群:583783…

物理机虚拟化关键技术介绍

☞ ░ 前往老猿Python博客 ░ https://blog.csdn.net/LaoYuanPython 一、虚拟化原理 将多个“同质或异构”资源(包括但不限于芯片、硬件、软件、应用)形成一个资源池,对资源池进行抽象、解耦形成独立的“虚拟资源”,并实现虚拟资…