2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。
华为公司的高级研究员谢凌曦博士对视觉通用人工智能的年度进展进行了总结,并做了精彩报告(报告PPT下载网址:https://github.com/198808xc/Vision-AGI-Survey),相关内容总结如下。文中的图片来源于该报告。
1.报告人简介
谢凌曦,华为公司的高级研究员,研究兴趣覆盖计算机视觉的各个方向,主要包括统计学习方法和深度学习模型与基础视觉任务的结合,并积极推动自动机器学习算法和视觉基础模型在上述领域的应用。
2.报告概览
通用人工智能(AGI)在自然语言处理领域已展现潜力,研究者正探讨其在视觉模态中的应用。谢凌曦专家从AGI的定义入手,分析其在语言领域的突破,提出实现视觉AGI的条件与挑战,并回顾相关研究进展。
3.内容整理
谢凌曦专家探讨了自然语言处理(NLP)领域和计算机视觉(CV)领域在AGI方面的进展和挑战。从大语言模型(如GPT-4)的成功开始,分析了其在NLP领域带来的影响,并对比了CV领域的现状和挑战。该年度进展评述报告主要分为五个部分,下面逐一加以介绍。
(1)通用人工智能的定义与理论基础。
1)报告呈现了通用人工智能的概念性定义,即能完成所有人类和动物任务的计算机程序。
2)报告讨论了通用人工智能的形式化定义,包括状态空间、动作集合、转移函数、奖励函数等,目标是最大化过程期望累计奖励。
(2)NLP领域的成功模式分析
报告讨论了自监督预训练和有监督微调的方法,这些都是通过大语言模型实现的,如ChatGPT。
(3)计算机视觉领域的挑战
1)报告分析了为什么计算机视觉在迈向AGI方面落后于NLP,指出了缺乏统一的交互环境和模型训练的困难。
2)报告探讨了视觉领域需要构建的交互环境和奖励机制,以及如何通过模型微调技术和基础模型训练来解决这些挑战。
(4)研究进展和技术探索
1)报告描述了视觉交互环境的发展,如ProcTHOR和Habitat 3.0等,提供更丰富的虚拟和真实视频数据集。
2)报告讨论了生成式模型对于视觉交互环境的重要性,包括3D/4D视角生成和文生图/视频技术的进展。
(5)未来展望和研究方向
报告提出了通用视觉任务的新范式,如视觉上下文学习和视觉智能体的开发,以及如何利用这些技术来定义和解决视觉任务。
如图 1所示,谢凌曦专家最后强调了技术的螺旋上升规律,鼓励研究者勇敢地接受新的挑战,创造未来。通过详细地分析这些进展和挑战,旨在为视觉领域的通用人工智能发展提供理论和实践的指导。
图 1 技术的螺旋上升规律