【知识库系列】MPR/多模态方向观察:图像视频与3D生成

多模态背后的backbone会长成什么样?

各种模态到梯度下降到最后会不会都差不多?

Sora 是不是已经被追上了?

我们真的把视频数据都用好了吗?

知识库完整文档:

MPR/多模态方向观察:图像视频与3D生成:https://miracleplus.feishu.cn/docx/Rl21d6hmOohXplxhrgccFxAqnJb?from=from_copylink

Manifesto

多模态,3D和视频生成是三个相关又各自独立的领域,他们在技术和应用领域上有所交叉。

1,多模态(Multimodality)

多模态技术指的是结合多种感官输入或输出的方式,例如视觉,听觉,触觉等。在人工智能领域,多模态通常指的是结合不同类型数据的分析和处理,如文本,图像和声音。

多模态学习是人工智能的一个重要分支,它涉及理解和生成能够同时处理多种数据类型的模型。

2,3D(三维)生成

3D技术涉及到创建和操作三维空间中的物体和场景,这包括3D建模,打印,动画和渲染等,在计算机图形学中,3D技术是创建逼真视觉效果的基础,广泛应用于电影,游戏和虚拟现实等领域。

3,视频生成:

视频生成指的是用计算机算法来创建视频生成的过程,可以是简单的动画,也可以是复杂的场景和角色模拟。

视频生成技术可以是结合3D模拟来创建三维动画,也可以使用机器模拟来生成逼真的内容

随着技术的发展,这三个领域正不断融合:

多模态与3D:在3D的创建过程中,多模态可以增强用户体验,通过结合视觉和听觉,可以增加3D的体验。

多模态与视频生成:多模态能帮助视频生成,从视觉和听觉的角度更好的理解和模拟真实世界。

一,多模态研究综述:

跨模态生成:

跨模态生成主要分为图像生成和视频生成两个部分

图像生成:

在图像生成领域,早期较为流行的架构为GAN(Generative Adversarial Network),模型通过generator 和 discriminator两个模块互相竞争来进行图像生成,Generator 大量生成多样性图像,Discriminator通过识别以及大量分类来识破generator 的生成。

在GAN 系列工作中,较为知名的style GAN,Circle GAN, 其中style GAN可以后期生成高分辨的人形图像,是GAN后期的最为流行的应用架构。

 近年来,图像生成领域占据主导地位的是扩散模型- diffusion models,扩散模型通过对图像数据的加噪/去噪的过程进行建模,从而实现图像的生成。

无论是GAN模型还是Diffusion Model,早期的工作都是从conditional generation开始,尽管模型可以生成高质量的图像,但用户无法对生成结果进行控制,因此后期的一个研究方向是condition/controllable  generation开始,其中最流行的是text to image generation,除此之外还包括spatial layout condition ,image condition (in- context) 等。

视频生成

与图像生成类似,早期的视频生成模型也是以GAN为主,不再赘述,近年来,扩散模型已在视频生成领域占据了主导地位,从早期图像迁移到视频领域,实现了text to video。

跨模态理解:

1,从训练数据,模型结构,评估方式等对大模型进行了分类。

2,很全面的列举了各种多模态多模型理解模型,以及他们在模型结构上的共性。

多模态幻觉:

多模态幻觉是模型在生成输出时生成了和图像不符的信息。一般是由大模型对图片的理解不够准确,或生成时过度依赖文本情境而忽略图片情境而导致的。

提升训练数据标注质量,改进训练方式,改进解码方式,对生成结果进行后处理。

这篇综述对多模态幻觉原因,评测benchmark以及在不同阶段的缓解方法进行了总结,对多模态幻觉的研究可以消除幻觉,提升模型的可靠度和用户信任外,更有利于揭示多模态模型的内在机制和潜在缺陷,推动模型架构和训练方法的改进。

片段定位:

如果多模态大模型能理解表示图片/视频中的部分内容的文本输入输出,那么这个大模型就能完成更低颗粒度的任务,如grounding,dense captioning.

在图片-文本多模态大模型中拥有grounding能力的模型包括Qwen-VL,InternLM-XComposer等,在视频,文本等大模型中,拥有grounding能力的大模型包括VTimeLM,TimeChat,HawkEye。

具身智能:

具身智能旨在识别和理解环境中的物体,来实现类似人类对环境的感知和与周围环境的交互,目前学术研究中具身智能方面最热门的问题包括具身规划,具身控制和具身问答。一些研究使用多模态大模型来统一解决各种具身智能问题。

视频理解中高效帧采样的单帧偏置问题

虽然理论上视频是新增了时间维度的帧的序列,但实践中对视频中的帧进行等距采样作为多模态大模型的输入一般是并不是最优解;有时很长的一段视频中只有一小段和问题相关,甚至只需要一帧中的静态画面就能回答很多问题。因此对于视频-文本多模态大模型,如何对视频进行更高效的帧采样对算法和性能都有重要影响,是一个关键研究问题。

3D生成

单场景3D重建:

神经网络辐射场与3D高斯颇溅是单场景3D重建近几年最常用的AI网络。二者区别于NeRF是利用神经网络隐式存储3D空间信息,3D Gaussian Splatting 是通过显式存储3D高斯隧球来保存3D信息。

多模态3D重建:

Toy data multi-model 3D diffusion

最经典的是zero1-to-3.该方法在image diffusion的基础上引入了camera matrix当作控制变量,对大模型微调得到了3D diffusion模型,这样我们获得了根据输入文字的图片/描述生成对应3D场景的多模态能力。

但重建出的物体质量极低,meta提出了3D Gen,3D Gen是通过集成Meta 3D AssetGen 和 Meta 3D TextureGen 模型的能力合理重建toy data 相对高质量的纹理,也保持了较好的几何合理性与连续性。

目录:

多模态研究综述:浩瀚学术中的拼图

跨模态生成

图像生成

视频生成

跨模态理解

简介

重要学术问题

3D生成

单场景3D重建

多场景3D重建

工程化观察:给开发者的工具箱

跨模态生成

图像生成

视频生成

3D生成

多模态生成

开源工具

闭源工具

图片理解工具

视频理解工具

训练和部署工作

Benchmark动态

技术与发展的探讨

多模态与视觉生成

Diffusion vs AR

理解 vs 生成

内容生成 vs 视觉模型

数据质量 vs scaling law

多模态与3D生成

NeRF vs 3DGS vs 几何表征

数据集构建与scaling 

精度。成本与应用范围

商业化赛道观察

万物灵犀 (3D扫描)

C端商业模式

B端商业模式

创源引擎(3D世界生成)

极佳科技(世界模型与多模态数据)

圆桌校友思考

补充内容:

年初,Sora的横空出世并引起广泛关注就是一个明显信号。多模态模型的运行可以大致分成两个过程:一是对多模态模型世界的理解,第二就是生成。以Sora视频生成类模型为例,它的运行不仅需要更大的内存带宽,对算力的需求也非常大。运行时,模型首先需要专门的图像处理引擎对视频或图片进行理解。这个过程中几乎每秒都要处理上千个Token才能实现实时理解。对于视频来说,一秒钟至少要生成30帧,同时还要考虑上下文的联系,连续30秒需要的算力非常之高。在理解的基础上,模型还要做生成。这对处理器的带宽又会提出新的要求。

也就是说,多模态模型的运行对芯片的算力和带宽以及成本、功耗都将有着更高的要求。Sora推出以来,其推广速度并不如人们想象得那么快,这与它对AI芯片的高需求有着莫大关系。当前的AI芯片很难支撑如此庞大的算力、带宽需求,而对算力带宽提出高需求的同时又会急剧推高成本。据测算,多模态模型的芯片成本将远高于目前的大语言模型。

蔡一茂指出,相对传统架构而言,存内计算或是突破多模态大模型发展中算力瓶颈的一个重要方向。如前所述,存内计算相对传统计算架构无论在算力还是带宽方面都有明显提升。存内计算相对传统计算另外一个重要优势是可以大幅降低成本。随着Flash、DRAM等存储容量的大幅度提高,芯片的单位成本也将不断降低。同时存内计算可以大幅减少数据搬运,这对降低芯片的运行功耗非常有利。

存内计算是一种将计算单元嵌入到内存中的计算范式,旨在解决传统冯·诺依曼架构中的“内存墙”和“功耗墙”问题。北京大学集成电路学院院长蔡一茂在接受记者采访时就表示,在越来越接近物理极限的情况下,单纯依靠传统工艺集成的方式推进摩尔定律,难度和成本都在急剧上升。另一方面,随着AI时代的到来,对传统芯片架构也将带来新的挑战,用户更加看重AI芯片在算力、存储、缓存带宽等方面的整体表现,因此寻求芯片架构上的创新对延续摩尔定律非常重要。这个架构创新就包括存内计算技术。

针对多模态的商业化应用方向观察,在图像视频与3D生成领域快速发展,本地化部署的大模型参数将达到千亿,然而目前基于SRAM/DRAM缓存的GPU或者NPU方案,都面临存储容量受限或者成本过高的巨大挑战。而存内计算不但可以有效减小计算过程中的缓存需求,还可以探索基于低成本大容量的Flash介质比如VNAND研制更加低成本的存内计算芯片,这将是一个重要的市场发展机遇。

关于存内计算2024 ISSCC最新论文解析访问链接 https://github.com/witmem/Witmem-CIM-Papers-Collection 

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/872616.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot实现前后端传输加密设计

在Web应用中,确保前后端之间的数据传输安全是非常重要的。这通常涉及到使用HTTPS协议、数据加密、令牌验证等安全措施。本文通过将前后端之间的传输数据进行加密,用于在Spring Boot应用中实现前后端传输加密设计。 一、数据加密方案 即使使用了HTTPS&…

java利用JXL操作excel

通过JXL操作Excel JXL是韩国人所著,目前停止更新,只支持xls格式,即2007之前的版本 import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java…

c# checkbox的text文字放到右边

checkbox的text文字放到右边 实现方法如下图 特此记录 anlog 2024年9月2日

Tensorflow实现深度学习8:猫狗识别

本文为为🔗365天深度学习训练营内部文章 原作者:K同学啊 一 导入数据 import matplotlib.pyplot as plt import tensorflow as tf # 支持中文 plt.rcParams[font.sans-serif] [SimHei] # 用来正常显示中文标签 plt.rcParams[axes.unicode_minus] Fals…

带AI功能朵米客服系统3.5无限制开心版+搭建文档

带AI功能朵米客服系统3.5无限制开心版搭建文档,朵米客服系统是一款全功能的客户服务解决方案,提供多渠道支持(如在线聊天、邮件、电话等),帮助企业建立与客户的实时互动。该系统具有智能分流功能,可以快速将…

万象奥科参展“2024 STM32全国巡回研讨会”—深圳站、广州站

9月3日-9月5日,万象奥科参展“2024 STM32全国巡回研讨会”— 深圳站、广州站。此次STM32研讨会将会走进全国11个城市,展示STM32在智能工业、无线连接、边缘人工智能、安全、图形用户界面等领域的产品解决方案及多样化应用实例,深入解读最新的…

【RabbitMQ之一:windows环境下安装RabbitMQ】

目录 一、下载并安装Erlang1、下载Erlang2、安装Erlang3、配置环境变量4、验证erlang是否安装成功 二、下载并安装RabbitMQ1、下载RabbitMQ2、安装RabbitMQ3、配置环境变量4、验证RabbitMQ是否安装成功5、启动RabbitMQ服务(安装后服务默认自启动) 三、安…

VR虚拟展厅的应用场景有哪些?

虚拟展厅作为一种利用虚拟现实技术构建的三维展示空间,其应用场景广泛且多样。视创云展为企业虚拟展厅搭建提供技术支持。以下是一些主要的应用场景: 1. 博物馆和艺术展览 文物保护与展示: 在博物馆中,为了保护珍贵的文物和艺术…

【node.js】基础之修改文件

node.js 基础(一) node.js是什么? 上面这句话的意思就是:Node.js 是一个开源的,跨平台的javascript运行环境。通俗的说就是一个应用程序或者说是一个软件,可以运行javascript。 Node.js的作用: 开发服务器应用。 将数…

nvidia-cuda-tensorrt-cudnn下载网站

tensorrt:https://developer.nvidia.com/tensorrt/download cudnn:https://developer.nvidia.com/rdp/cudnn-archive cuda:https://developer.nvidia.com/cuda-toolkit-archive

Mybatis---代理设计模式(超详细)

Mybatis—代理设计模式 文章目录 Mybatis---代理设计模式一、什么是代理设计模式二、静态代理1、定义2、结构3、示例 三、动态代理1、定义2、newProxyInstance ()方法3、示例 四、CGLIB代理1、引入2、定义3、工作原理4、示例 一、什么是代理设计模式 首…

AI基础 L1 Introduction to Artificial Intelligence

什么是AI Chinese Room Thought Experiment 关于“强人工智能”的观点,即认为只要一个系统在行为上表现得像有意识,那么它就真的具有理解能力。 实验内容如下: 假设有一个不懂中文的英语说话者被关在一个房间里。房间里有一本用英文写的中…

鸿蒙开发基础知识-页面布局【第四篇】

1.类型转换 2.交互点击事件 3.状态管理 4.forEch渲染和右上角图标 测试案例 Stack 层叠布局一个生肖卡 5. 动画展示图片 6. Swiper 轮播组件的基本使用 图片等比显示 aspectRatio()

TikTok直播为什么要用独立IP

TikTok直播作为一种受欢迎的社交媒体形式,吸引了越来越多的用户和内容创作者。在进行TikTok直播时,选择使用独立IP地址是一种被广泛推荐的做法。本文将探讨为什么在TikTok直播中更推荐使用独立IP,并解释其优势和应用。 独立IP是指一个唯一的互…

sheng的学习笔记-AI-半监督聚类

AI目录:sheng的学习笔记-AI目录-CSDN博客 半监督学习:sheng的学习笔记-AI-半监督学习-CSDN博客 聚类:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客 均值算法:sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大…

Linux-(系统启动、用户管理)

目录 前言 关机&重启命令 基本介绍 注意细节 用户登录和注销 注意: 用户管理 基本介绍 添加用户 指定/修改密码 删除用户 查询用户信息 切换用户 查看当前用户登录用户 用户组 新增组 删除组 查看所有组 修改用户所属组 创建用户时指定用户…

超声波微型气象仪

超声波微型气象仪是一种便携式的气象观测仪器,可以测量温度、湿度、气压和风速等气象参数。其使用方法如下: 打开仪器电源,并确保仪器已经预热完成。将仪器放置在待测环境中,确保避免直接阳光照射和强风的影响。确定仪器与待测气…

110001安庆巡检_工艺巡检

安庆巡检_工艺巡检 一. 工艺配置二. 点检计划三. 点检任务四. 复检任务1. 复检列表1.1 页面展示 2. 复检任务下发2.1 操作说明2.2 业务说明2.3 表关联说明ps_recheck_task工艺工序参数_复检详情表 3. 复检详情2.1 获取参数点检详情2.2 获取复检详情列表 4. app端复检任务提交4.…

HTML的块级元素与行内元素

在HTML中,元素可以分为两大类:块级元素(block-level elements)和行内元素(inline elements)。这两种类型的元素在网页布局和呈现中扮演着不同的角色。 块级元素(Block-level Elements&#xff…

免费申请aws一年免费服务器使用教程

由于近期要测试一个公网项目,对比之下,选择了aws服务器,免费使用一年。 准备:一个visa信用卡即可,需要一个外网邮箱(我这边使用的hotmail) 注册的步骤不再赘述,切记几个点&#xff0…