Dolphins 简介——一种新颖的多模态语言模型

背景问题

现在的自动驾驶系统在处理复杂的多变的现实驾驶场景时，往往缺乏人类驾驶员的全面理解，及时学习和适应能力以及错误纠正能力，为了实现能够像人类一样理解和响应复杂现实世界场景的完全自主车辆(AV)一直是一个重要目标。Dolphins 是一种新颖的视觉语言模型,它被设计为具有人类般的能力作为驾驶助手。

研究方法

在开源预训练的视觉语言模型OpenFlamingo的基础上，首先采用落地思维链(GCoT)过程增强了Dolphins的推理能力,然后通过构建特定于驾驶的指令数据和进行指令调整,将Dolphins调整到驾驶领域。通过利用BDD-X数据集,我们设计并整合了四种不同的AV任务到Dolphins中,以促进对复杂驾驶场景的全面理解。

在这里插入图片描述

应用

感知（场景理解）：上传一个视频或者一系列图片。通过问答，Dolphins 能够理解场景，并准确描述出来。
预测与规划：Dolphins 预测车辆接下来的变化，自行规划接下来的行为。
快速学习和适应：Dolphins 能通过情境学习进行未来预测。能够回答“如果”式问题。
反射和错误恢复：通过学习规则，反思原有预测，重新给出修改后的预测。
详细对话：可以和 Dolphins 对话，了解 Dolphins 正在关注什么，例如一些场景细节。也可以得到安全驾驶的知识。

特征

Dolphins 的独特特征可概括为两个方面:
(1) 能够提供对复杂和长尾开放世界驾驶场景的综合理解,并解决一系列AV任务;
(2) 出现了人类般的能力,包括通过上下文学习进行无梯度即时适应以及通过反思进行错误恢复。

局限性和未来工作

在复杂的驾驶场景中，Dolphins在整体理解和类人推理方面具有非凡的能力，标志着自主驾驶技术领域的重大进步。通过利用多模态输入和采用创新的基于链思维(GC0T)过程，Dolphins己经显示了其作为对话驾驶助手的熟练程度，能够处理广泛的AV任务，具有增强的可解释性和快速适应能力。

然而，我们走向全面优化Dolphins在现实世界中的应用的旅程遇到了明显的问题，特别是在计算开销和可行性方面。我们对Dolphins在DLM数据集上的表现的评估，一个真实世界的驾驶场景的现实基准，揭示了在一台 NVIDIA A100上平均推理时间为 1.34 秒。表明在边缘车辆上实现高帧率方面存在潜在的限制。此外，与在车辆上运行这种复杂的模型相关的功耗是一个重要的部署障碍。这些发现强调了进一步提高模型效率的必要性。展望未来，由新兴研究提出的定制和提炼模型版本的发展,似乎是一个很有前途的方向，这些简化的模型预计在边缘设备上部署更加可行，平衡了计算需求和功率效率。我们认为，持续探索和该领域的创新对于实现配备先进人工智能功能（如Dolphi ns提供的功能）的AV的全部潜力至关重要。