PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架

2025年1月7号,由杨德杰、赵子敬、刘洋联合提出PlanLLM,一种基于可微调大型语言模型(LLM)的跨模态联合学习框架,用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块,PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制,实现了对新步骤和任务的泛化能力。

该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升,展现了其在弱监督学习中的有效性。

一、研究背景

视频程序规划(给定视频起始和目标状态生成动作步骤序列)是具身AI的关键能力。早期方法依赖全监督视觉-文本标注,但成本高昂。近年弱监督方法兴起,仅需文本动作序列,通过编码器-解码器结构学习隐式视觉空间。引入LLM的方法(如SCHEMA)利用语言模型扩展动作描述,提升解码性能,但仍受限于封闭集标签和固定语义。

目前遇到困难和挑战:

1、封闭集标签泛化不足:现有方法将动作步骤编码为one-hot向量,无法处理开放世界场景(无法生成未见过的新步骤)。

2、常识与实例语义冲突:基于世界常识的固定动作描述(如“粉碎食物”)可能与具体视觉状态(如“粉碎机中的鹰嘴豆泥”)不符,导致推理错误。

3、语义关系未被利用:步骤间的语义关联(如“剥蒜”与“放入碎浆机”)未被显式建模,限制任务连贯性。

二、让我们一起来看一下PlanLLM

PlanLLM 框架主要由三个部分组成:特征提取、互信息最大化和LLM增强规划

1、输入阶段

PlanLLM的输入包括视频的起始状态(start state)和目标状态(goal state)的视频帧。这些视频帧分别代表了任务的初始条件和最终目标,例如在烹饪场景中,起始状态可能是“原材料”,目标状态可能是“成品菜肴”。

2、特征提取(Feature Extraction)

视觉特征提取:使用预训练的视觉编码器(如S3D网络)对起始状态和目标状态的视频帧进行编码,提取样本特定的视觉信息。这些视觉嵌入能够捕捉到视频帧中的关键视觉细节。

文本特征提取:使用预训练的语言编码器(如CLIP)对动作步骤描述进行编码,提取世界级别的常识信息。这些文本嵌入能够提供关于动作步骤的语义背景。

3、互信息最大化(Mutual Information Maximization)

视觉状态交互:通过自注意力机制处理视觉状态嵌入,增强视觉状态之间的上下文关联。

Q-Former框架:将处理后的视觉嵌入和文本嵌入输入到Q-Former架构中,生成跨模态的联合步骤嵌入。这一过程通过最大化视觉和语言嵌入之间的互信息,将样本特定的视觉信息与世界级别的文本常识结合。

互信息最大化损失:通过优化视觉-语言对比(VLC)损失和视觉-语言匹配(VLM)损失,进一步强化视觉和语言嵌入之间的关联。

4. LLM增强规划(LLM Enhanced Planning)

自由形式规划输出:将联合步骤嵌入和视觉状态嵌入输入到大型语言模型(LLM)中,LLM的解码器直接生成自由形式的动作步骤描述。这种自由形式的输出能够处理开放词汇的任务,即生成未在训练集中出现的新动作步骤。

两阶段训练方案:首先固定LLM,训练特征提取和互信息最大化模块,以对齐视觉和语言嵌入到LLM的输入空间;然后通过LoRA技术微调LLM,优化规划任务。

5. 输出阶段

PlanLLM能够处理两种类型的任务:

封闭集合动作步骤分类:对于传统的动作步骤分类任务,LLM增强的步骤解码分支输出动作步骤的ID。

开放词汇规划任务:对于开放词汇的规划任务,LLM生成自由形式的规划输出,并将生成的描述和新的文本动作步骤标签编码为向量。然后通过计算描述和标签之间的相似性,检索出最匹配的动作步骤标签。

整个工作流程通过跨模态联合学习,充分利用了视觉信息和语言模型的强大推理能力,实现了从视频帧到动作步骤序列的高效规划。

三、让我们一起展望PlanLLM 应用场景

比如:在我们汽车零部件组装车间

我们有智能机器人,它的工作是在汽车零部件组装车间里,将各种零部件组装成一个完整的汽车座椅。这个任务听起来很复杂,但有了PlanLLM,机器人就能轻松搞定。

1、任务目标

机器人的目标是将一堆散件(比如座椅框架、海绵垫、皮套等)组装成一个完整的汽车座椅。起始状态是这些零部件散落在工作台上,目标状态是一个组装好的座椅。

2、PlanLLM的工作过程

首先,机器人通过摄像头获取工作台上的视频帧,这些视频帧会被送到PlanLLM的视觉特征提取模块。PlanLLM会分析这些视频帧,识别出当前的起始状态(散件状态)和目标状态(完整座椅)。然后,PlanLLM的文本特征提取模块会根据任务要求,提取相关的动作步骤描述,比如“拿起座椅框架”“安装海绵垫”“套上皮套”等。

接下来,PlanLLM的互信息最大化模块会将视觉信息和文本描述结合起来,生成一个综合的动作步骤规划。这个规划会告诉机器人,先拿起座椅框架,然后把海绵垫放在框架上,接着套上皮套,最后固定好所有部件。

最后,PlanLLM的LLM增强规划模块会根据生成的规划,进一步细化每个动作步骤。比如,它会告诉机器人,拿起海绵垫的时候,要小心不要变形,套皮套的时候,要注意对齐缝线等。

3、机器人的执行

机器人接收到PlanLLM生成的详细规划后,就开始按照规划一步步执行。它先用机械臂拿起座椅框架,然后精准地把海绵垫放在框架上,接着小心翼翼地套上皮套,最后用螺丝刀固定好所有部件。整个过程就像一个熟练的工人一样,有条不紊地完成任务。

PlanLLM在智能机器人和自动化任务中的巨大潜力。它不仅能让机器人完成复杂的任务,还能让机器人更加智能、灵活和高效。

整理文章中三个常用的教学视频数据集

数据集:CrossTask

数据集地址:CrossTask|教育技术数据集|视频分析数据集

数据集:COIN

数据集地址:COIN Dataset|视频分析数据集|数据集数据集

数据集:NIV

数据集地址:敬请期待

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/966673.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

链表(LinkedList) 1

上期内容我们讲述了顺序表,知道了顺序表的底层是一段连续的空间进行存储(数组),在插入元素或者删除元素需要将顺序表中的元素整体移动,时间复杂度是O(n),效率比较低。因此,在Java的集合结构中又引入了链表来解决这一问…

[手机Linux] onepluse6T 系统重新分区

一,刷入TWRP 1. 电脑下载 Fastboot 工具(解压备用)和对应机型 TWRP(.img 后缀文件,将其放入前面解压的文件夹里) 或者直接这里下载:TWRP 2. 将手机关机,长按音量上和下键 开机键 进入 fastbo…

活动预告 |【Part1】Microsoft 安全在线技术公开课:安全性、合规性和身份基础知识

课程介绍 通过参加“Microsoft 安全在线技术公开课:安全性、合规性和身份基础知识”活动提升你的技能。在本次免费的介绍性活动中,你将获得所需的安全技能和培训,以创造影响力并利用机会推动职业发展。你将了解安全性、合规性和身份的基础知识…

从零开始玩转Docker:轻松开启容器化之旅

一、什么是 Docker Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。简单来说,Docker 就像是一个超级 “快递箱”&#xff0c…

为何实现大语言模型的高效推理以及充分释放 AI 芯片的计算能力对于企业级落地应用来说,被认为具备显著的研究价值与重要意义?

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ AI 芯片:为人工智能而生的 “大脑” AI 芯片,又称人工智能加速器或计算卡,是专为加速人工智能应用,特别是深度学习任务设计的专用集成电路(A…

软件模拟I2C案例(寄存器实现)

引言 在经过前面对I2C基础知识的理解,对支持I2C通讯的EEPROM芯片M24C02的简单介绍以及涉及到的时序操作做了整理。接下来,我们就正式进入该案例的实现环节了。本次案例是基于寄存器开发方式通过软件模拟I2C通讯协议,然后去实现相关的需求。 阅…

【redis】数据类型之hash

Redis中的Hash数据类型是一种用于存储键值对集合的数据结构。与Redis的String类型不同,Hash类型允许你将多个字段(field)和值(value)存储在一个单独的key下,从而避免了将多个相关数据存储为多个独立的key。…

5.2Internet及其作用

5.2.1Internet概述 Internet称为互联网,又称英特网,始于1969年的美国ARPANET(阿帕网),是全球性的网络。 互连网指的是两个或多个不同类型的网络通过路由器等网络设备连接起来,形成一个更大的网络结构。互连…

深度学习模型蒸馏技术的发展与应用

随着人工智能技术的快速发展,大型语言模型和深度学习模型在各个领域展现出惊人的能力。然而,这些模型的规模和复杂度也带来了显著的部署挑战。模型蒸馏技术作为一种优化解决方案,正在成为连接学术研究和产业应用的重要桥梁。本文将深入探讨模…

网络与数据安全

目录 数据加密对称加密(Symmetric Encryption)非对称加密(Asymmetric Encryption)哈希算法(Hash Functions)数字签名(Digital Signature)密钥管理(Key Management&#x…

< OS 有关 > 利用 google-drive-ocamlfuse 工具,在 Ubuntu 24 系统上 加载 Google DRIVE 网盘

Created by Dave On 8Feb.2025 起因: 想下载 StableDiffusion,清理系统文件时把 i/o 搞到 100%,已经删除到 apt 缓存,还差 89MB,只能另想办法。 在网上找能不能挂在 Google 网盘,百度网盘,或 …

05vue3实战-----配置项目代码规范

05vue3实战-----配置项目代码规范 1.集成editorconfig配置2.使用prettier工具2.1安装prettier2.2配置.prettierrc文件:2.3创建.prettierignore忽略文件2.4VSCode需要安装prettier的插件2.5VSCod中的配置2.6测试prettier是否生效 3.使用ESLint检测3.1VSCode需要安装E…

【漫话机器学习系列】084.偏差和方差的权衡(Bias-Variance Tradeoff)

偏差和方差的权衡(Bias-Variance Tradeoff) 1. 引言 在机器学习模型的训练过程中,我们常常面临一个重要的挑战:如何平衡 偏差(Bias) 和 方差(Variance),以提升模型的泛…

23.PPT:校摄影社团-摄影比赛作品【5】

目录 NO12345​ NO6 NO7/8/9/10​ 单元格背景填充表格背景填充文本框背景填充幻灯片背景格式设置添加考生文件夹下的版式 NO12345 插入幻灯片和放入图片☞快速:插入→相册→新建相册→文件→图片版式→相框形状→调整边框宽度左下角背景图片:视图→…

OpenCV:图像修复

目录 简述 1. 原理说明 1.1 Navier-Stokes方法(INPAINT_NS) 1.2 快速行进方法(INPAINT_TELEA) 2. 实现步骤 2.1 输入图像和掩膜(Mask) 2.2 调用cv2.inpaint()函数 2.3 完整代码示例 2.4 运行结果 …

快速建立私有化知识库(私有化训练DeepSeek,通过ollama方式)

简介 什么?!老是有人问你需求,不同版本的需求你记不清还得去扒拉过程文档、设计文档? 什么?!领导会询问功能使用情况、用户相关数据,你每次还得手动查询反馈? 什么?&…

python脚本实现windows电脑内存监控内存清理(类似rammap清空工作集功能)

import ctypes import psutil import time import sys import os from datetime import datetime import pyautogui# 检查管理员权限 def is_admin():try:return ctypes.windll.shell32.IsUserAnAdmin()except:return False# 内存清理核心功能 def cleanup_memory(aggressivene…

网络安全:挑战、技术与未来发展

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 在数字化时代,网络安全已成为全球关注的焦点。随着互联网的普及和信息技术的高速发展,网络攻击的…

Verilog语言学习总结

Verilog语言学习! 目录 文章目录 前言 一、Verilog语言是什么? 1.1 Verilog简介 1.2 Verilog 和 C 的区别 1.3 Verilog 学习 二、Verilog基础知识 2.1 Verilog 的逻辑值 2.2 数字进制 2.3 Verilog标识符 2.4 Verilog 的数据类型 2.4.1 寄存器类型 2.4.2 …

35.Word:公积金管理中心文员小谢【37】

目录 Word1.docx ​ Word2.docx Word2.docx ​ 注意本套题还是与上一套存在不同之处 Word1.docx 布局样式的应用设计页眉页脚位置在水平/垂直方向上均相对于外边距居中排列:格式→大小对话框→位置→水平/垂直 按下表所列要求将原文中的手动纯文本编号分别替换…