VALSE 2024年度进展评述内容分享-视觉通用人工智能

VALSE 2024年度进展评述内容分享-视觉通用人工智能

article2024/12/25 15:37:48/文章来源:https://blog.csdn.net/audyxiao001/article/details/138520300

2024年视觉与学习青年学者研讨会（VALSE 2024）于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

华为公司的高级研究员谢凌曦博士对视觉通用人工智能的年度进展进行了总结，并做了精彩报告（报告PPT下载网址：https://github.com/198808xc/Vision-AGI-Survey），相关内容总结如下。文中的图片来源于该报告。

1.报告人简介

谢凌曦，华为公司的高级研究员，研究兴趣覆盖计算机视觉的各个方向，主要包括统计学习方法和深度学习模型与基础视觉任务的结合，并积极推动自动机器学习算法和视觉基础模型在上述领域的应用。

2.报告概览

通用人工智能（AGI）在自然语言处理领域已展现潜力，研究者正探讨其在视觉模态中的应用。谢凌曦专家从AGI的定义入手，分析其在语言领域的突破，提出实现视觉AGI的条件与挑战，并回顾相关研究进展。

3.内容整理

谢凌曦专家探讨了自然语言处理（NLP）领域和计算机视觉（CV）领域在AGI方面的进展和挑战。从大语言模型（如GPT-4）的成功开始，分析了其在NLP领域带来的影响，并对比了CV领域的现状和挑战。该年度进展评述报告主要分为五个部分，下面逐一加以介绍。

(1)通用人工智能的定义与理论基础。

1）报告呈现了通用人工智能的概念性定义，即能完成所有人类和动物任务的计算机程序。

2）报告讨论了通用人工智能的形式化定义，包括状态空间、动作集合、转移函数、奖励函数等，目标是最大化过程期望累计奖励。

(2)NLP领域的成功模式分析

报告讨论了自监督预训练和有监督微调的方法，这些都是通过大语言模型实现的，如ChatGPT。

(3)计算机视觉领域的挑战

1）报告分析了为什么计算机视觉在迈向AGI方面落后于NLP，指出了缺乏统一的交互环境和模型训练的困难。

2）报告探讨了视觉领域需要构建的交互环境和奖励机制，以及如何通过模型微调技术和基础模型训练来解决这些挑战。

(4)研究进展和技术探索

1）报告描述了视觉交互环境的发展，如ProcTHOR和Habitat 3.0等，提供更丰富的虚拟和真实视频数据集。

2）报告讨论了生成式模型对于视觉交互环境的重要性，包括3D/4D视角生成和文生图/视频技术的进展。

(5)未来展望和研究方向

报告提出了通用视觉任务的新范式，如视觉上下文学习和视觉智能体的开发，以及如何利用这些技术来定义和解决视觉任务。

如图 1所示，谢凌曦专家最后强调了技术的螺旋上升规律，鼓励研究者勇敢地接受新的挑战，创造未来。通过详细地分析这些进展和挑战，旨在为视觉领域的通用人工智能发展提供理论和实践的指导。

图 1 技术的螺旋上升规律

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/597689.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

优雅处理返回信息状态码：Result对象在Spring Boot中的应用

优雅处理返回信息状态码：Result对象在Spring Boot中的应用

前言在开发过程中，处理返回的信息状态码是一个重要的问题，尤其是在大型项目中。为了统一处理这些状态码，我在Spring Boot中创建了一个名为Result的Java对象，用于封装返回的信息和状态码。在本文中，我将分享如何实现这…

阅读更多...

【C++题解】1435. 数池塘（八方向）

【C++题解】1435. 数池塘（八方向）

问题：1435. 数池塘（八方向） 类型：深搜题目描述： 农夫约翰的农场可以表示成 NM（1≤N,M≤100）个方格组成的矩形。由于近日的降雨，在约翰农场上的不同地方形成了池塘。每一个方格或…

阅读更多...

重写muduo之获取线程tid代码

重写muduo之获取线程tid代码

目录 1、概述 2、CurrentThread.h 3、 CurrentThread.cc 1、概述我们的服务器程序不一定就只有1个Eventloop，我们可能有很多的Eventloop，每个Eventloop都有很多channel，自己channel上的事件要在自己的Eventloop线程上去处理，E…

阅读更多...

免费开源的tiktok加速软件

免费开源的tiktok加速软件

背景 tiktok是国内企业出海做的比较成功的案例，可以简单的理解为海外版的抖音，关于tiktok的运营和变现不是我们擅长的领域，这里就不多说了，这篇文章主要着重在解决tiktok的网络问题，介绍如何用开源的软件自己搭建一套…

阅读更多...

基于 Ubuntu22.04 安装 SSH 服务

基于 Ubuntu22.04 安装 SSH 服务

文章目录一、Ubuntu22.04 安装 SSH 服务二、配置 OpenSSH（安全性）1. 更改 OpenSSH 端口2. 限制使用 SSH 登录尝试次数3. 禁止 SSH 以 root 身份连接三、设置防火墙（UFW）锁定 SSH四、远程终端软件通过 SSH 连接 Ubuntu22.041. 远…

阅读更多...

SpringMVC简介和体验

SpringMVC简介和体验

一、SpringMVC简介和体验 1.1 介绍 Spring Web MVC :: Spring Framework Spring Web MVC是基于Servlet API构建的原始Web框架，从一开始就包含在Spring Framework中。正式名称“Spring Web MVC”来自其源模块的名称（ spring-webmvc ）&#…

阅读更多...

算法学习007-进制转换 c++递归算法实现中小学算法思维学习信奥算法解析

算法学习007-进制转换 c++递归算法实现中小学算法思维学习信奥算法解析

目录 C进制转换一、题目要求 1、编程实现 2、输入输出二、算法分析三、程序编写四、程序说明五、运行结果六、考点分析七、推荐资料 C进制转换一、题目要求 1、编程实现小明学c有一段时间了，今天他想做一个进制转换的小程序，将十进…

阅读更多...

LEETCODE LCR 041. 数据流中的移动平均值

LEETCODE LCR 041. 数据流中的移动平均值

class MovingAverage:def __init__(self, size: int):"""Initialize your data structure here."""self.sizesize1self.front0self.rear0self.queue[None for _ in range(size1)]self.sum0def next(self, val: int) -> float:# 满了if (self.…

阅读更多...

flutter 生成单选组件

flutter 生成单选组件

一、效果图二、主要代码 import package:company_manage_flutter/xcClass/dicDataProp.dart; import package:flutter/material.dart; import package:get/get.dart;class CheckListWidget extends StatefulWidget {final List<Map<String, dynamic>> list;final…

阅读更多...

Vue中Element的下载

Vue中Element的下载

打开vscode让项目在终端中打开输入npm install element-ui2.15.3 然后进行下载在node_modules中出现element-ui表示下载完成然后在输入Vue.use(ElementUI); import Vue from vue import App from ./App.vue import router from ./router import ElementUI from element-ui…

阅读更多...

【目标检测】Deformable DETR

【目标检测】Deformable DETR

一、前言论文： Deformable DETR: Deformable Transformers for End-to-End Object Detection 作者： SenseTime Research 代码： Deformable DETR 特点： 提出多尺度可变形注意力 (Multi-scale Deformable Attention) 解决DETR收敛…

阅读更多...

已解决 RuntimeError: No CUDA GPUs are available 亲测有效！！！

已解决 RuntimeError: No CUDA GPUs are available 亲测有效！！！

已解决 RuntimeError: No CUDA GPUs are available 亲测有效！！！ 亲测有效报错问题解决思路解决方法报错问题 RuntimeError: No CUDA GPUs are available 这个错误通常发生在尝试在没有CUDA支持的GPU或没有安装NVIDIA GPU的机器上运行基于C…

阅读更多...

Hamilton回路求解

Hamilton回路求解

如果可以我想和你回到那天相遇让时间停止那一场雨红线划过深藏轮回的秘密我挥霍运气因为你才让我背对命运不害怕 --------- 如果可以 (Acapella) - 韦礼安大家好，我又又又来了，今天给大家聊聊Hamilton回路！ 背景国际象…

阅读更多...

使用CUDA的PyTorch进行张量重整化的gpu加速

使用CUDA的PyTorch进行张量重整化的gpu加速

使用CUDA的PyTorch进行张量重整化的gpu加速摘要IntroductionAlgorithm and TorchTrg discussionModels and Results GPU-Acceleration of Tensor Renormalization with PyTorch using CUDA 摘要作者展示了基于张量重整化群（TRG）方法的数值计算可以通过…

阅读更多...

HarmonyOS NEXT星河版之在线考试功能实战

HarmonyOS NEXT星河版之在线考试功能实战

文章目录一、目标二、基础搭建2.1 定义数据2.2 mock数据2.3 主页面布局2.3.1 布局规划2.3.2 标题栏2.3.3 进度条2.3.4 答题模块2.3.5 底部按钮 2.4 主页面逻辑2.4.1 加载数据及定义变量2.4.2 上一题、下一题三、选项点击及高亮3.1 声明对象及变量3.2 给选项注册点击事件3.3 处…

阅读更多...

AI图书推荐：Zapier和AI融合来自动化业务流程

AI图书推荐：Zapier和AI融合来自动化业务流程

这本书《Zapier和AI融合来自动化业务流程》（Automate It with Zapier and Generative AI）由Kelly Goss撰写，这本书是为想要使用Zapier和AI集成功能来自动化重复性任务、提高生产力的微型、小型或中型企业的业务所有者、运营经理和团队准备的。…

阅读更多...

C++入门基础（四）

C++入门基础（四）

目录 auto关键字(C11)类型别名思考auto的使用细则auto与指针和引用结合起来使用在同一行定义多个变量 auto不能推导的场景auto不能作为函数的参数auto不能直接用来声明数组复杂场景下的auto 基于范围的for循环(C11)范围for的语法范围for的使用条件指针空值---nullptr(C11)C98…

阅读更多...

电商核心技术揭秘四十九：智能广告投放与效果评估

电商核心技术揭秘四十九：智能广告投放与效果评估

相关系列文章电商技术揭秘相关系列文章合集（1） 电商技术揭秘相关系列文章合集（2） 电商技术揭秘相关系列文章合集（3） 电商技术揭秘四十一：电商平台的营销系统浅析电商技术揭秘四十二&#…

阅读更多...

饥荒服务器搭建centos

饥荒服务器搭建centos

服务器环境需要64位32位不可用 uname -r 查看服务器版本更新yum sudo yum update 安装依赖环境 sudo yum -y install glibc.i686 libstdc.i686 libcurl4-gnutls-dev.i686 libcurl.i686 screen 安装steam cd /home && mkdir steamcmd && cd steamcmd 国…

阅读更多...

【typescript测试 - Jest 配置与使用】

【typescript测试 - Jest 配置与使用】

安装 npm install --save-dev types/jestnpm install --save-dev ts-jest配置 tsconfig.json {"compilerOptions": {"types": ["jest"]} }jest.config.js module.exports {preset: ts-jest,testEnvironment: node, };使用 // add.js funct…

阅读更多...

最新文章