VALSE 2024 Tutorial内容总结--开放词汇视觉感知

视觉与学习青年学者研讨会(VALSE)旨在为从事计算机视觉、图像处理、模式识别与机器学习研究的中国青年学者提供一个广泛而深入的学术交流平台。该平台旨在促进国内青年学者的思想交流和学术合作,以期在相关领域做出显著的学术贡献,并提升中国学者在国际学术舞台上的影响力。

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

5月6日的VALSE 2024会议主要内容包括2个Tutorial和10Workshop。

2Tutorial:在这两个Tutorial中,来自中山大学的李冠彬教授、浙江大学的彭思达研究员和香港中文大学的韩晓光教授呈现了3个报告,分别为《开放词汇视觉感知》、《NeRF的基础及后续扩展》和《3GDS, 三维重建的终点吗?》。

10Workshop: 这些Workshop涵盖了从视觉大模型的高效迁移、因果推断与机器学习的深入研究,到三维重建与内容生成技术的实际应用,以及大模型在智慧医疗中的创新应用。还讨论了智能算法的安全性与伦理问题、生成式模型在艺术智能中的应用,具身智能的新研究进展,以及视频生成技术和移动终端上的AI图像增强技术的最新发展。此外,还讨论了海洋多模态计算的挑战与机遇。这些讨论不仅展示了技术的多样化应用,还强调了科研在推动技术前沿和解决实际问题中的核心作用。

本文主要对来自中山大学的李冠彬教授所做的Tutorial《开放词汇视觉感知》进行介绍。

1.报告人简介

李冠彬,中山大学计算机学院副教授,博士生导师,国家优秀青年基金获得者,主要研究领域为跨模态视觉感知、理解与生成。

2.开放词汇视觉感知的基本概念

开放词汇视觉感知是计算机视觉领域中的一个重要概念。它指的是一种允许计算机视觉系统在面对新的物体或场景时,能够自我更新并学习到新的标签的方法。这种方法通过构建一个可扩展的标签集合(即开放词汇),使系统能够更好地适应现实世界的多样性。在视觉感知的过程中,计算机视觉系统首先通过视觉感知器官(如摄像头)获取图像信息,然后对这些信息进行处理和分析,以实现对图像中物体的准确定位和识别。开放词汇视觉感知的引入,使得计算机视觉系统能够处理更广泛、更复杂的场景,提高了系统的适应性和准确性。

3.内容整理

李冠彬教授从开放词汇的分类、检测、分割、下游任务应用和多模态大模型这几部分展开讲述。

1)开放词汇的分类

开放词汇的分类方式使得机器学习模型或计算机视觉系统能够更好地适应现实世界的多样性,提高模型的泛化能力和适应性。在实际应用中,开放词汇的分类可以应用于多个领域,例如:

1)自然语言处理(NLP):在NLP任务中,开放词汇可以帮助模型处理和理解新的词汇、短语和表达方式。例如,在情感分析任务中,模型可以学习新的情感词汇,以便更准确地识别文本中的情感倾向。

2)计算机视觉:在计算机视觉任务中,开放词汇可以用于描述图像中的物体、场景和事件。通过不断学习和更新标签集合,模型可以更好地识别和理解图像中的新内容。

3)语音识别:在语音识别任务中,开放词汇可以帮助模型识别新的语音词汇和表达方式。这对于处理口音、方言和非标准发音等复杂情况非常重要。

2)开放词汇的检测

开放词汇的检测是一种先进的技术,特别是在计算机视觉领域。它的主要目标是使机器能够识别并定位图像中那些未在训练集中出现过的新类别的物体。这种技术对于机器人技术、自动驾驶等领域具有重要的应用价值。传统的目标检测方法通常依赖于一个固定的、预定义的标签集合,这限制了它们识别未在训练集中出现过的新类别物体的能力。而开放词汇检测技术的出现,克服了这一限制。它利用深度学习和自然语言处理等技术,通过在大规模数据集上预训练模型,并结合视觉和语言信息,使得模型能够识别并定位出图像中的新类别物体。具体来说,开放词汇检测技术可能会采用一些创新的方法,如YOLO-World等。YOLO-World的架构见图1,更多的介绍读者可以下载论文进行阅读,论文下载地址https://arxiv.org/abs/2401.17270。

1 YOLO-World的架构

3)开放词汇的分割

开放词汇的分割主要指的是一种处理文本或图像数据的方法,旨在将连续的文本序列或图像中的物体切分成独立的词汇单元或类别。与传统的封闭词汇分割方法不同,开放词汇分割方法能够处理未在训练数据中出现过的类别,因此具有更强的适应性和灵活性。开放词汇分割方法的优点在于它能够处理大量的类别,而不需要对每个类别进行单独的训练。此外,这种方法还可以利用预训练的模型来提高分割的准确性和效率。例如,CLIP(Contrastive Language-Image Pre-Training)模型就是一个常用的预训练模型,它通过在大量图像和文本数据上进行训练,学习到了丰富的视觉和语义信息,可以用于支持开放词汇分割任务,如图2所示。CLIP论文链接:https://arxiv.org/abs/2103.00020。

图 2 CLIP方法的基本原理

4)下游任务中的应用

开放词汇视觉感知在下游任务中的应用中展现出了强大的潜力和实用性。它使得计算机视觉系统能够识别和理解现实世界中更多样化、更复杂的场景和物体,为自动驾驶、智能安防、机器人导航等领域提供了更精准、更灵活的视觉处理能力。通过不断学习和适应新的视觉词汇,这些系统能够更好地满足实际应用的需求,推动人工智能技术的进一步发展。

5)多模态大模型

多模态大模型是一种强大的深度学习架构,它能够整合和处理来自不同模态的信息,如文本、图像、音频和视频等。结合开放视觉感知,多模态大模型不仅能够分析已知的图像类别,还能学习并识别那些未在训练集中出现过的新视觉词汇。这种跨模态的学习能力使得多模态大模型在智能安防、自动驾驶、机器人导航等领域具有广泛的应用前景,能够提供更全面、更准确的视觉感知和决策支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/600231.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux进程信号(一)】信号概念/产生/保存/处理

目录 入门 前&后台进程 前台进程: 后台进程 常用命令 ./XXX & fg命令 & bg命令 Ctrl c / Ctrl \ 信号的概念 信号的产生 1.键盘产生 2.系统调用指令 3.异常 4.软件条件 信号的保存 信号的处理 1.信号屏蔽字 2.未决信号表 3.信号处理…

layui 数据表格 自动定位新增行位置

由于数据表格新增行后没有到新增到当前位置 继续增加的需求: 因为自己是新增行后到最后一行的 所以 就定位到最后一行 并且 高亮 高亮颜色浅 可自行更改 整理了一下 可根据 情况 修改 // 初始化滚动条位置变量 let tableScroll {scrollTob: 0,scrollLeft: 0,…

【busybox记录】【shell指令】comm

目录 内容来源: 【GUN】【comm】指令介绍 【busybox】【comm】指令介绍 【linux】【comm】指令介绍 使用示例: 逐行比较两个排序后的文件 - 默认输出 逐行比较两个排序后的文件 - 如果一个文件的排序有问题,那么反错(默认&…

口感与风味的完善结合:精酿啤酒的多样风格

啤酒的世界是丰富多彩的,不同的啤酒有着各自与众不同的口感和风味。而Fendi club啤酒,作为精酿啤酒的代表,以其多样化的风格和卓着的口感,吸引了无数啤酒爱好者的目光。 Fendi club啤酒的多样风格,首先体现在其原料的选…

医药垃圾分类管理系统|基于SSM医药垃圾分类管理系统的系统设计与实现(源码+数据库+文档)

医药垃圾分类管理系统 目录 基于SSM医药垃圾分类管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统登录模块 2管理员模块实现 3用户模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博…

1天搞定SpringBoot+Vue全栈开发 (8)前端路由VueRouter(进行组件切换)

1.VueRouter安装与使用 2.参数传递 创建路由组件 在项目中定义Discover.vue、Friends.vue、My.vue三个组件&#xff0c;将来要使用vue-router来控制它们的展示与切换&#xff1a; Discover.vue <template><div><h1>发现音乐</h1></div> <…

PE文件(四)FileBuffer-ImageBuffer

文件执行的总过程 当文件从硬盘中读入虚拟内存&#xff08;FileBuffer&#xff09;中时&#xff0c;文件数据会被原封不动的复制一份到虚拟内存中&#xff0c;然后进行拉伸对齐。此时虚拟内存中文件数据叫做文件印象或者内存印象&#xff0c;即ImageBuffer。此时ImageBuffer中…

Prompt提示词教程 | 提示工程指南 | 提示词示例 入门篇

在上一节中&#xff0c;我们介绍并给出了如何赋能大语言模型的基本示例。如果还没看而且是刚入门的同学建议看下&#xff0c;有个基本概念。 Prompt提示词教程 | 提示工程指南 | 提示工程简介https://blog.csdn.net/HRG520JN/article/details/138523705在本节中&#xff0c;我…

crossover怎么打开软件 mac怎么下载steam crossover下载的软件怎么运行

CrossOver是一款Mac和Linux平台上的类虚拟机软件&#xff0c;通过CrossOver可以运行Windows的可执行文件。如果你是Mac用户且需要使用CrossOver&#xff0c;但是不知道CrossOver怎么打开软件&#xff0c;如果你想在Mac电脑上玩Windows游戏&#xff0c;但不知道怎么下载Steam&am…

free5gc+ueransim配置

ueransim已完成配置&#xff0c;可以观察到在make后&#xff0c;ueransim的build下生成以下几个文件 nr-gnb-------------5G gnb&#xff08;RAN&#xff09;的主要可执行文件 nr ue---------------5G ue的主要可执行文件 nr-cli---------------5G gNB和UE的cli工具 nr-binder-…

从零开始的软件测试学习之旅(六)测试网络基础知识

测试网络基础知识 HTTP和HTMLURLDNS客户端和服务器请求方法和状态码面试高频Fiddler抓包工具教学弱网 HTTP和HTML 概念 html: HyperText Markup Language 超文本标记语言 http: HyperText Transfer Protocol 超文本传输协议 超文本: 图片, 音频, 视频 关系:http 可以对 html 的…

Cargo - 构建 rust项目、管理依赖包

文章目录 关于 Cargo构建项目创建工程编译运行buildclean 管理依赖添加依赖updatecheck计时 manual rust 安装可参考&#xff1a;https://blog.csdn.net/lovechris00/article/details/124808034 关于 Cargo Cargo 官方文档 &#xff1a; https://doc.rust-lang.org/cargo/crat…

QSPI的使用

Quad SPI接口(QSPI)是一种同步串行数据链路,在主模式下提供与外部设备的通信。它类似于SPI协议,只是它有额外的数据线。 普通SPI有四条通信线路:芯片选择、时钟、MOSI和MISO。对于QSPI,可提供额外的数据线。因此,命令/数据/地址是根据所选模式通过单、四或双IO发送的。由…

网络安全之动态路由OSPF基础

OSPF&#xff1a;开放式最短路径优先协议。 1、协议使用范围&#xff1a;IGP。 2、协议算法特点&#xff1a;链路状态型路由协议。 3、协议是否传递网络掩码&#xff1a;传递网络掩码&#xff08;无类别的路由协议&#xff09;。 4、协议封装&#xff1a;基于IP协议封装&am…

【Linux系统编程】1-文件IO操作

文章目录 1 概述2 文件描述符3 文件I/O操作3.1 打开文件操作3.2 关闭文件操作3.3 向文件写入数据3.4 从文件读取数据 4 给文件描述符添加非阻塞特性4.1 当此文件描述符不存在4.2 当此文件描述符存在 5 获取文件状态信息6 文件目录操作6.1 打开目录操作6.2 读取目录信息6.3 关闭…

窃鈇逃债,赧然惭愧——“天下共主”周赧王的结局

引子&#xff0c;债台高筑 周赧王五十九年&#xff08;前256年&#xff09;&#xff0c;雒邑王都内&#xff0c;大周第三十七代天子、年近八十的周赧王姬延困坐在王宫内的高台上&#xff0c;愁容满面、沮丧悲切、束手无策&#xff1b;而王宫宫墙外不远处&#xff0c;是一大帮举…

VMware与CentOS的安装

VMware与CentOS的安装 第一章 VMware安装第二章 CentOS上网虚拟机网络IP修改地址配置修改主机名和hosts文件修改主机名称配置Linux克隆机主机名称映射hosts文件&#xff0c;打开/etc/hosts 安装Xshell7和Xftp7 第一章 VMware安装 VMware Workstation Pro 安装包 …

【再探】设计模式—适配器、装饰及外观模式

结构型设计模式是用于设计对象和类之间关系的一组设计模式。一共有7种&#xff1a;适配器模式、装饰器模式、外观模式、桥接模式、组合模式、享元模式及代理模式。 1 适配器模式 需求&#xff1a;在软件维护阶段&#xff0c;已存在的方法与目标接口不匹配&#xff0c;需要个中…

Windows系统和unbtun系统连接usb 3.0海康可见MVS和红外艾睿相机

一.海康可见USB3.0工业面阵相机 海康usb相机需要去海康官网上下载对应系统的MVS客户端及SDK开发包 海康机器人-机器视觉-下载中心 选择Windows系统和unbtun&#xff08;我是linux aarch64,所以选择了对应压缩包解压&#xff09; Windows系统 1.双击安装包进入安装界面&…

【Qt 学习笔记】Qt常用控件 | 输入类控件 | Date/Time Edit的使用及说明

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt常用控件 | 输入类控件 | Spin Box的使用及说明 文章编号&#xff1…