Talk|北京大学张嘉曌:NaVid - 视觉语言导航大模型

本期为TechBeat人工智能社区第602期线上Talk。

北京时间6月20日(周四)20:00北京大学博士生—张嘉曌的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “NaVid - 视觉语言导航大模型”,NaVid是首个专为视觉语言导航(VLN)任务设计的基于视频的具身大模型。NaVid使用导航过程中的视频观测和自然语言指令作为输入,直接输出机器人的导航动作。与大部分已有的机器人导航技术不同,NaVid不依赖于深度信息、里程计和地图,完全依靠RGB视觉感知实现端到端的导航控制。它仅利用模拟器的数据进行导航策略学习,就能在真实世界的场景中实现泛化的导航表现。该工作已入选RSS'24。

Talk·信息

 主题:NaVid - 视觉语言导航大模型

嘉宾:北京大学博士生 张嘉曌

时间:北京时间 6月20日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=881

Talk·介绍

近年来,视觉语言大模型在理解文本和视觉信号方面展现出了令人瞩目的能力。本文旨在进一步探索这些模型在具身智能领域的潜力。我们实现了基于视觉语言的导航大模型NaVid。NaVid将指令和导航视频作为输入,可以直接输出底层动作命令(如前进、转向和停止)。这种方法摒弃了对地图、坐标等信息的依赖。我们还设计了在模拟器中收集和训练VLN数据的策略,并展示了NaVid在真实场景中实现视觉语言导航任务的泛化表现。

Talk大纲

1. 背景 - VLN任务介绍和相关工作 

2.动机 – 为什么要使用视觉语言大模型去实现VLN

3. 问题 - 构建VLN大模型的难点

4. 解决方案 - 构建适合VLN模态的大模型结构,收集510k的VLN数据 

5. 实验结果 - 在R2R和RxR的表现,数据量对NaVid的影响,真机实验结果,视频指令推理结果 

6.总结 - NaVid的意义和重要性

Talk·预习资料

图片

论文链接:  

https://arxiv.org/abs/2402.15812

图片

论文链接:  

https://arxiv.org/abs/2311.17043

论文题目:

Vision and Language Navigation in Continuous Environments

项目链接:

https://jacobkrantz.github.io/vlnce/

图片

论文链接:  

https://arxiv.org/abs/2305.16986

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

张嘉曌

北京大学· 博士生

张嘉曌是北京大学前沿计算研究中心的博士研究生,师从王鹤助理教授。在此之前,他在国防科技大学师从徐凯教授获得硕士学位,并在山东大学获得工学学士学位。

张嘉曌的研究领域涵盖了Embodied AI和3D视觉。他已经以第一作者或共同第一作者的身份,在T-RO/RSS/SIGGRAPH/CVPR等国际顶级会议和期刊上发表了7篇论文

个人主页: 

https://www.techbeat.net/grzytrkj?id=38010


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/729301.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Cancer Discovery | 非小细胞肺癌的空间蛋白组学研究再添新篇章

非小细胞肺癌(NSCLC)作为最常见的肺癌亚型,其治疗和预后的改善一直是医学研究的重点。由肿瘤细胞、免疫细胞、成纤维细胞等多种细胞类型组成的肿瘤微环境(TME)已被证实在肺癌的进展、转移和治疗响应中扮演着重要的角色…

MySQL——索引(概述和结构介绍)

一、索引概述 1、索引(index)是帮助 MySQL 高效获取数据的数据结构(是一种有序的数据结构)。 2、在数据之外,数据库系统还维护着满足特定查找算法的数据结构。这些数据结构以某种方式引用(指向)数据,这样就可以在这些…

概率论与数理统计期末复习

概率论常考知识点汇总 总括 1. 基础概率论 概率定义:理解概率是事件发生的可能性度量,范围从0(不可能)到1(必然发生)。概率公理:掌握概率的三大公理,即非负性、规范性和可加性。条…

使用 cx_Oracle 在 Oracle 中等待记录并执行操作

问题背景: 在第一个 Python 项目中,需要等待记录被插入 Oracle 表中,一旦记录存在,就调用 Python 函数。目前使用 cx_Oracle 库,采用一种无限循环的方式来查询表。如果记录存在,就调用函数,然后…

分类预测 | ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别

分类预测 | ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别 目录 分类预测 | ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别分类效果基本描述程序设计参考资料 分类效果 基本描述 1.ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融…

Linux【实操篇-文件目录类命令】

05【实操篇-文件目录类命令】 1.pwd 显示当前工作目录的绝对路径 pwd:print working directory 打印工作目录 到现在为止,我们还不知道自己在系统的什么地方。在浏览器上,我们能够通过导航栏上的url,了解到自己在互联网上的具体坐标。相似的…

金蝶云星空与MES系统深度集成对接案例全公开

项目背景 深圳市某自动化设备有限公司,自2006年成立以来,一直专注于高端精密自动化设备的研发、生产与销售。作为一家高科技企业,公司依托深圳这一经济特区的地理优势,构建了覆盖全国的服务网络,并拥有两个先进的生产…

椭圆的矩阵表示法

椭圆的矩阵表示法 flyfish 1. 标准几何表示法 标准几何表示法是通过椭圆的几何定义来表示的: x 2 a 2 y 2 b 2 1 \frac{x^2}{a^2} \frac{y^2}{b^2} 1 a2x2​b2y2​1其中, a a a 是椭圆的长半轴长度, b b b 是椭圆的短半轴长度。 2.…

LogicFlow 学习笔记——9. LogicFlow 进阶 节点

LogicFlow 进阶 节点(Node) 连线规则 在某些时候,我们可能需要控制边的连接方式,比如开始节点不能被其他节点连接、结束节点不能连接其他节点、用户节点后面必须是判断节点等,想要达到这种效果,我们需要为…

iOS开发工具-网络封包分析工具Charles

一、Charles简介 Charles 是在 Mac 下常用的网络封包截取工具,在做 移动开发时,我们为了调试与服务器端的网络通讯协议,常常需要截取网络封包来分析。 Charles 通过将自己设置成系统的网络访问代理服务器,使得所有的网络访问请求…

云手机群控功能讲解

接触云手机之前,很多企业或者个人卖家都对群控有浓厚的兴趣,云手机群控具体是什么呢?云手机群控,顾名思义,是指能够同时对多台云手机进行集中控制和管理的功能。打破了传统单台手机操作的限制,实现了规模化…

ffmpeg音视频开发从入门到精通——ffmpeg下载编译与安装

音视频领域学习ffmpeg的重要性 音视频领域中ffmpeg的广泛应用,包括直播、短视频、网络视频、实时互动和视频监控等领域。掌握FM和音视频技术可以获得更好的薪酬。 学习建议音视频学习建议与实战应用 音视频处理机制的学习,需要勤加练习,带…

nginx出现504 Gateway Time-out错误的原因分析及解决

nginx出现504 Gateway Time-out错误的原因分析及解决 1、查看公网带宽是否被打满 2、查看网络是否有波动(可以在nginx上ping后端服务,看是否有丢包情况) 3、查看服务器资源使用情况(cpu、内存、磁盘、网络等) 4、查看nginx日志,具体到哪个服务的哪个…

浙江保融科技2025实习生校招校招笔试分享

笔试算法题一共是有4道,第一道是手搓模拟实现一个ArrayList,第二道是判断字符串是否回文,第三道是用代码实现1到2种设计模式。 目录 一.模拟实现ArrayList 二.判断字符串是否回文 ▐ 解法一 ▐ 解法二 ▐ 解法三 三.代码实现设计模式 一…

189.二叉树:把二叉搜索树转换为累加树(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

深度神经网络——决策树的实现与剪枝

概述 决策树 是一种有用的机器学习算法,用于回归和分类任务。 “决策树”这个名字来源于这样一个事实:算法不断地将数据集划分为越来越小的部分,直到数据被划分为单个实例,然后对实例进行分类。如果您要可视化算法的结果&#xf…

【linux】操作系统使用wget下载网络文件,内核tcpv4部分运行日志

打印日志代码及运行日志(多余日志被删除了些): 登录 - Gitee.comhttps://gitee.com/r77683962/linux-6.9.0/commit/55a53caa06c1472398fac30113c9731cb9e3b482 测试步骤和手段: 1、清空 kern.log; 2、使用wget 下载linux-6.9.tar.gz&…

webgis 之 地图投影

地图投影 什么是地图投影目的种类等角投影的分类墨卡托投影Web 墨卡托投影 参考小结 为了更好地展示地球上的数据,需要将地球投影到一个平面上。地图投影是一个数学问题,按照一定的几何关系,将地球上的经纬度坐标映射到一个平面上的坐标。地球…

c++里 父类私有的虚函数,也是可以被子类重写和继承的。但父类私有的普通函数,子类无法直接使用

谢谢 。今天看课本上有这么个用法,特测试一下。这样就也可以放心的把父类的私有函数列为虚函数了,或者说把父类的虚函数作为私有函数了。 再补充一例:

用Nuitka打包 Python,效果竟如此惊人!

目录 为什么选择Nuitka? Nuitka的工作原理 Nuitka的工作流程大致如下: 安装Nuitka 实战案例 示例代码 打包程序 运行可执行文件 进阶技巧 优化选项 多文件项目 打包第三方库 使用Python开发一个程序后,将Python脚本打包成独立可执…