Dolphins 简介——一种新颖的多模态语言模型

背景问题

现在的自动驾驶系统在处理复杂的多变的现实驾驶场景时,往往缺乏人类驾驶员的全面理解,及时学习和适应能力以及错误纠正能力,为了实现能够像人类一样理解和响应复杂现实世界场景的完全自主车辆(AV)一直是一个重要目标。Dolphins 是一种新颖的视觉语言模型,它被设计为具有人类般的能力作为驾驶助手。

研究方法

在开源预训练的视觉语言模型OpenFlamingo的基础上,首先采用落地思维链(GCoT)过程增强了Dolphins的推理能力,然后通过构建特定于驾驶的指令数据和进行指令调整,将Dolphins调整到驾驶领域。通过利用BDD-X数据集,我们设计并整合了四种不同的AV任务到Dolphins中,以促进对复杂驾驶场景的全面理解。

在这里插入图片描述

应用

  • 感知(场景理解):上传一个视频或者一系列图片。 通过问答,Dolphins 能够理解场景,并准确描述出来。
  • 预测与规划:Dolphins 预测车辆接下来的变化,自行规划接下来的行为。
  • 快速学习和适应:Dolphins 能通过情境学习进行未来预测。能够回答“如果”式问题。
  • 反射和错误恢复:通过学习规则,反思原有预测,重新给出修改后的预测。
  • 详细对话:可以和 Dolphins 对话,了解 Dolphins 正在关注什么,例如一些场景细节。也可以得到安全驾驶的知识。

特征

Dolphins 的独特特征可概括为两个方面:
(1) 能够提供对复杂和长尾开放世界驾驶场景的综合理解,并解决一系列AV任务;
(2) 出现了人类般的能力,包括通过上下文学习进行无梯度即时适应以及通过反思进行错误恢复。

局限性和未来工作

在复杂的驾驶场景中,Dolphins在整体理解和类人推理方面具有非凡的能力,标志着自主驾驶技术领域的重大进步。通过利用多模态输入和采用创新的基于链思维(GC0T)过程,Dolphins己经显示了其作为对话驾驶助手的熟练程度,能够处理广泛的AV任务,具有增强的可解释性和快速适应能力。

然而,我们走向全面优化Dolphins在现实世界中的应用的旅程遇到了明显的问题,特别是在计算开销和可行性方面。我们对Dolphins在DLM数据集上的表现的评估,一个真实世界的驾驶场景的现实基准,揭示了在一台 NVIDIA A100上平均推理时间为 1.34 秒。表明在边缘车辆上实现高帧率方面存在潜在的限制。此外,与在车辆上运行这种复杂的模型相关的功耗是一个重要的部署障碍。这些发现强调了进一步提高模型效率的必要性。展望未来,由新兴研究提出的定制和提炼模型版本的发展,似乎是一个很有前途的方向,这些简化的模型预计在边缘设备上部署更加可行,平衡了计算需求和功率效率。我们认为,持续探索和该领域的创新对于实现配备先进人工智能功能(如Dolphi ns提供的功能)的AV的全部潜力至关重要。

总结

Dolphins 作为一种基于视觉语言模型的对话式驾驶助手,成功缩小了现有自动驾驶和人类驾驶之间的差距。他在复杂驾驶场景的全面理解,人类般的能力和广泛的任务,适用性方面表现出色,为实现更接近人类驾驶的自动驾驶系统,提供了有力支持。

题外话:很少有机会作为前端,可以去研究模型原理之类。这不机会来了吗。发现由浅入深的学习,能够让一个小白较快的了解一个模型原理,不至于一头雾水。

我的学习路径是,先翻翻官方 github,找些通俗易懂的视频,对模型有个整体了解,以及应用场景的了解。看别人的文章,对由浅入深的介绍原理。再丢到 AI 里全文总结,或者进行问答的方式。最后再看论文,就简单很多了。当然以后进阶了,就直接看论文了。

  • Dolphins:面向自动驾驶的多模态语言模型-bilibili视频介绍
  • 项目页面以查看演示、示例和请求预训练模型
  • 强推,Dolphins 的原理讲的浅显易懂
  • Dophins-github
  • 论文总结、翻译AI工具
  • Dolphins 论文(由于是本地文档,就没放链接了)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/904159.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW汽车状态监测系统

LabVIEW汽车状态监测系统通过模拟车辆运行状态,有效地辅助工程师进行故障预测和维护计划优化,从而提高汽车的可靠性和安全性。 项目背景: 现代汽车工业面临着日益增长的安全要求和客户对于车辆性能的高期望。汽车状态监测系统旨在实时监控汽…

面试经典 150 题.P26. 删除有序数组中的重复项(003)

本题来自:力扣-面试经典 150 题 面试经典 150 题 - 学习计划 - 力扣(LeetCode)全球极客挚爱的技术成长平台https://leetcode.cn/studyplan/top-interview-150/ 题解: class Solution {public int removeDuplicates(int[] nums) …

FPGA时序分析和约束学习笔记(3、Timequest时序路径详解和优化)

FPGA时序分析和约束学习笔记(3、Timequest时序路径详解和优化) Timequest中Data Path分析 Data Arrival Path clock path:时钟信号到达源寄存器时钟端口的时间 data path:数据从源寄存器Q端口出发到达目标寄存器D端口的时间 D…

浮动+flex布局

一.浮动 1.介绍 2.效果 <style> .one{ width: 100px; height: 100px; background-color: red; float: left; } .two{ width: 200px; height: 200px; background-color: blue; float: right; } </style> </head> <body> <div class"one&quo…

yandex企业邮箱:烽火域名邮箱有哪些优势?

yandex企业邮箱申请教程&#xff1f;如何用yandex免费域名邮箱&#xff1f; yandex企业邮箱作为一款备受推崇的企业邮箱服务&#xff0c;凭借其独特的优势&#xff0c;成为了众多企业的首选。烽火将深入探讨yandex企业邮箱的优势&#xff0c;特别是与烽火域名邮箱相比&#xf…

Python CGI编程-上传和下载文件file

文件上传&#xff1a;form表单需要设置enctype属性为 multipart/form-data&#xff0c;请求的网址是&#xff1a;http://localhost/post.html点击上传&#xff0c;页面跳转到&#xff1a;http://localhost/cgi-bin/hello.py上传的文件存在了/temp路径下文件下载&#xff0c;文件…

NVR小程序接入平台/设备EasyNVR多个NVR同时管理视频监控新选择

在数字化转型的浪潮中&#xff0c;视频监控作为安防领域的核心组成部分&#xff0c;正经历着前所未有的技术革新。随着技术的不断进步和应用场景的不断拓展&#xff0c;视频监控系统的兼容性、稳定性以及安全性成为了用户关注的焦点。NVR小程序接入平台/设备EasyNVR&#xff0c…

优质网站建设公司哪家好?2024网站建设公司推荐

选择一个好的优质网站建设公司可以从以下几点考虑—— 1、价位 选择网站建设公司首先是看网站建设公司的报价预算&#xff0c;就像你买衣服一样&#xff0c;虽然都是一模一样的&#xff0c;但是质量还是会有一定的差距的毕竟一分钱一分货。不过根据不同的公司肯定会有不一样的…

C++初阶(七)--类和对象(4)

目录 ​编辑 一、再谈构造函数 1.构造函数体赋值 2.初始化列表 二、类型转换 1.隐式类型转换 2.explicit关键字 3.类类型之间的对象隐式转换 三、static成员函数 1.概念 2.特性 3.面试题&#xff1a; 四、友元函数 1.基本介绍 2.回顾&#xff1a; 3.友元类&am…

【机器学习】音乐与AI的交响:机器学习在音乐产业中的应用

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀目录 &#x1f50d;1. 引言&#x1f4d2;2. 机器学习在音乐创作中的革新&#x1f341;AI作曲家的诞生与作品展示&#x1f342;机器学习在音乐…

基于安卓Android的健康饮食系统APP(源码+文档+部署+讲解)

&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 会持续一直更新下去 有问必答 一键收藏关注不迷路 源码获取&#xff1a;https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwdjf1d 提取码: jf1d &#…

docker基础篇(尚硅谷)

学习链接 docker1️⃣基础篇&#xff08;零基小白&#xff09; - 语雀文档 (即本篇) Docker与微服务实战&#xff08;基础篇&#xff09; Docker与微服务实战&#xff08;高级篇&#xff09;- 【上】 Docker与微服务实战&#xff08;高级篇&#xff09;- 【下】 文章目录 学习…

iQOO手机怎样将屏幕投射到MacBook?可以同步音频吗?

众所周知&#xff0c;苹果品牌的设备自己有AirPlay的投屏功能&#xff0c;iPhone要投屏到MacBook只要连接同一网络&#xff0c;然后开启AirPlay就可以投屏。但其他品牌的手机没有AirPlay&#xff0c;怎么将手机屏幕投射到MacBook呢&#xff1f; 安卓系统的手机可以使用无线投屏…

【C++】踏上C++学习之旅(四):细说“内联函数“的那些事

文章目录 前言1. "内联函数"被创造出来的意义2. 内联函数的概念2.1 内联函数在代码中的体现2.2 普通函数和内联函数的汇编代码 3. 内联函数的特性&#xff08;重点&#xff09;4. 总结 前言 本章来聊一聊C的创作者"本贾尼"大佬&#xff0c;为什么要创作出…

未上架APP开通微信商户支付服务的步骤指南

在移动互联网时代&#xff0c;APP作为连接用户与服务的桥梁&#xff0c;其支付功能的完善与否直接关系到用户体验和商家的收益。对于尚未上架的APP而言&#xff0c;提前开通微信商户支付服务&#xff0c;能够为其后续的推广和运营打下坚实基础。本文将详细介绍如何为未上架的AP…

【分布式知识】分布式对象存储组件-Minio

文章目录 什么是minio核心特点&#xff1a;使用场景&#xff1a;开发者工具&#xff1a;社区和支持&#xff1a; 核心概念什么是对象存储&#xff1f;MinIO 如何确定对对象的访问权限&#xff1f;我可以在存储桶内按文件夹结构组织对象吗&#xff1f;如何备份和恢复 MinIO 上的…

《ToDesk 云电脑、易腾云、青椒云移动端体验实测:让手机秒变超级电脑》

前言 科技发展到如今2024年&#xff0c;可以说每一年都在发生翻天覆地的变化。云电脑这个市场近年来迅速发展&#xff0c;无需购买和维护额外的硬件就可以体验到电脑端顶配的性能和体验&#xff0c;并且移动端也可以带来非凡体验。我们在外出办公随身没有携带电脑情况下&#x…

R语言机器学习算法实战系列(十四): CatBoost分类算法+SHAP值 (categorical data gradient boosting)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍CatBoost的原理CatBoost的步骤教程下载数据加载R包导入数据数据预处理数据描述数据切割设置数据对象调节参数训练模型预测测试数据评估模型模型准确性混淆矩阵模型评估指标ROC Curv…

Android 应用权限管理详解

文章目录 1. 权限类型2. 权限请求机制3. 权限组和分级4. 权限管理的演进5. 权限监控和 SELinux 强制访问控制6. 应用权限审核和 Google Play Protect7. 开发者最佳实践8. 用户权限管理9. Android 应用沙箱模型10. Scoped Storage&#xff08;分区存储&#xff09;11. 背景位置权…

Fsm1

为了处理有时间上先后的事件&#xff0c;在FPGA中采用状态机的形式完成事件处理。 Mealy 状态机&#xff1a;输出不仅取决于当前状态&#xff0c;还取决于输入状态。 Moore 状态机&#xff1a;组合逻辑的输出只取决于当前状态&#xff0c;而与输入状态无关。 二段式状态机&…