AtomoVideo:AIGC赋能下的电商视频动效生成

✍🏻 本文作者:凌潼、依竹、桅桔、逾溪

1. 概述

当今电商领域,内容营销的形式正日趋多样化,视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力,为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长,视觉内容作为连接消费者和商品的桥梁,在广告系统中正变得日益重要。

然而,与传统的图文内容相比,视频内容的制作难度和成本都要高得多。制作一个高质量的视频需要专业的技能、设备以及时间,这使得成品的质量层次不齐,且难以批量化生产。随着人工智能和生成式内容创造(AIGC)技术的进步,使得通过智能化手段批量制作优质视频创意成为可能,并且能够为客户带来显著价值。

近日,OpenAI Sora 的发布让人们看到了视频智能创作的曙光,如今各大团队也纷纷开始了“国产版 Sora”的探索之路,在 Sora 出现之前,阿里妈妈智能创作与AI应用团队在视频 AIGC 领域已有近一年的研究和探索,与业务相结合,我们孵化出了🔗 尺寸魔方、商品视频动效生成等基于扩散模型的视频生成和编辑工具。本文将聚焦于商品视频动效生成,介绍我们在视频 AIGC 应用于视频创意上的探索与实践。

借助自研的AtomoVideo 视频生成技术(中文:阿瞳木视频,项目地址:https://atomo-video.github.io/),我们探索出了一种自动化地将电商平台上现有的图片素材转换为高质量的视频动效的方法,并在万相实验室、广告投放平台等场景进行了落地和上线,服务于广大阿里妈妈广告客户。

e025c8cb2ef8a1ad7a12a4b94a6d15bc.gif71197739b991f1a27ef20f226308759c.gif

774b65eb91e90789015f6d8f98664702.gif

2ce2fc490c44c2fd272514f482a833fd.gif

2. 核心技术

整个商品视频动效的生成过程面临诸多挑战,尤其是在电商场景下,商品主体的细节是不允许被改变的,也是商家非常在意的基本准则。因此,如何在保持商品外观准确性的同时进行更加合理的动效视频生成,是非常值得探索的问题。我们在现有T2V模型的基础上,提出使用 Noise Rectification(无需训练的噪声矫正器)来实现图像到视频的生成,为了进一步提升视频连贯性和保真度,进而提出 AtomoVideo(阿瞳木视频生成技术) 将基础模型进行升级,赋能电商视频动效生成。

2.1 Noise Rectification: 无需训练的噪声矫正器

文本到图像生成(T2I)在过去一年取得了飞速的发展,诸多设计行业从业者、科技爱好者利用 Stable Diffusion WebUI、ComfyUI 等开源工具已经可以生成摄影级图像和实现商业级落地应用。相比之下,受限于训练机器资源和数据集收集困难等挑战,视频生成远没有图像生成领域发展迅速,近半年,随着 Pika、Gen-2 等视频编辑工具的出现,社区中也涌现了许多文本到视频生成(T2V)的工作,为了将此类 T2V 的工作迁移至我们的商品动效生成中,我们提出了一种无需训练的噪声矫正器(Noise Rectification),可以自然地实现 T2V 到 I2V 的转变

具体来说,我们对给定图片添加一定步数的噪声,以此来模拟训练过程中的加噪过程,这样我们便获得了含有输入图像信息的噪声先验,在此基础上进行降噪即可保留一定输入图片的风格等信息。然而,这种“垫图”式 T2V 生成方式在电商领域对给定图片做动效生成时,会丢失大量原图像中的细节信息,严重破坏原有图片的美观度。为此,我们专门设计了一个与“垫图”生成可以完美配合的噪声矫正器(Noise Rectification),噪声矫正器流程图如下所示:

536dc15412d4a0e1a81cacc4303337b8.png
Noise Rectification示意图

考虑到模型训练无法达到完美损失,即模型预测噪声总会存在偏差,从而导致视频保真度的降低。为了缓解模型在 DDIM 去噪过程中的误差累积(指实际添加的噪声与每一步中模型预测的噪声的差异),对于每一步模型预测的噪声,我们利用初始采样的噪声,对其进行“噪声矫正”,即 通过计算预测噪声和真实噪声之间的差异,采样加权的计算方式对预测的噪声进行适当调整。通过这种设计,我们的方案可以消除第一帧的噪声误差,使得第一帧达到完美保真,同时其余帧也会和第一帧保持时序内容上的一致。本方案提出的“垫图+噪声矫正”策略,不需要引入额外的训练,直接作用于动效模型的推理阶段,即可提高图生视频的保真度。更多技术细节请参见我们的论文:

  • Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

  • 链接:https://arxiv.org/abs/2403.02827

  • 项目主页:https://noise-rectification.github.io/

使用该方案后的前后对比效果如下,能够明显看到动效视频与给定图像一致性的提升,结合可控生成技术,我们可以完美还原商品细节。但这种针对 T2V 模型的噪声校正策略在更多通用场景下会存在动效幅度较小的缺点,关于这一点的解决,我们将在下一章节进行介绍我们的改进。

输入图像
生成动效(直接垫图生成)

生成动效(使用Noise Rectification生成)

385ba318f862396325b0617e532518ce.png7de5cc73d5120f6a1c98fbf25676d907.gif0a9c81bbb3cf5021fc476af2abb1ebba.gif
a16450e84e6cf22866a4eb96dc66cd24.png9d9bd7ab3ae0a9e3b4ee9f942e7c3bc4.gifee3f0db61128992a9abb9db663be8aec.gif

2.2 AtomoVideo:高保真度的I2V模型升级

在商品信息注入和噪声矫正器的加持下,商品动效生成已经具备了不错的生成效果,我们也基于以上改进在万相实验室上线了动效生成模块的第一版,但由于所使用的基础模型为 T2V 模型,并非适用于本任务的 I2V 模型,且生成时长仅有2s,在淘内场景下使用受限。为此,我们专门研发了更适用于本任务的 I2V 基础模型,称为 AtomoVideo(中文:阿瞳木视频),该模型对视频的时序一致性和图像保真度提升显著,模型结构框架图如图所示:

163b9d6e8d1f351804191e18d263121d.png
AtomoVideo 模型结构图

我们对模型做了如下几个改进,包括优质数据集构建、多粒度图像注入、渐进性动作强度训练等。

1) 优质数据集构建:收集内部千万规模的“文本-视频”数据对,利用美观度、文本视觉相关性、主体检测(过滤人物视频)、动效强度检测等方式,清洗得到优质视频数据子集,用于视频生成模型训练。同时我们与设计师合作构建了一个更加优质的数据集,汇集了大量在美观度和动效质量上均表现出色的高清视频。

2) 多粒度图像注入:为增强 I2V 生成的图像保真度和时序一致性,我们使用了多粒度的图像注入方法,在扩散模型输入侧将图像的low-level和high-level语义进行输入,在我们实验中,这可以在完美还原给定图像保真度的同时,增加生成视频的时序一致性。

3) 训练方法:我们观察到大多数其他工作(如Pika、Gen2等)很难生成动作幅度大的视频,还有一些工作在生成动作幅度较大的视频时,稳定性较差。为了克服这一点,我们使用了渐进性动作强度增加的多阶段训练方式,由低动效视频数据集开始,逐步增加至高动效数据集进行训练,我们发现这可以帮助模型在生成较大动作幅度视频的同时,依然能够维持较好的时序稳定性。

经过如上的改进和大规模训练,我们将基础模型升级为可产生4s,720P的视频生成模型。更多相关细节可以阅读我们的技术报告:

  • Title:AtomoVideo: High Fidelity Image-to-Video Generation

  • 链接:http://arxiv.org/abs/2403.01800

  • 项目主页:https://atomo-video.github.io

部分生成示例如下,更多示例可前往项目主页浏览:

输入图片输入文本输出视频
5a07128c7af98d1ca2359331249708f0.pngMuppet walking down the street in a red shirt, cinematic.958047b945c9877f121d166cbfb59da2.gif
bb03f277f47279807098a808e954a3f5.pngFlying through an intense battle between pirate ships in a stormy ocean.15b599f5af70357872bc995adbc29ce6.gif
66749de97767fffd4ea5df29010dc7e4.pnga singer of a music bande3a2e39b1c490abe43d617c9d3924d83.gif

此外,我们将I2V基础模型的原始T2I模型部分进行了参数固定,而仅对新增的时序建模层和输入层进行训练,因此,我们可以将社区广泛使用的图像 ControlNet 与 AtomoVideo 进行结合,这也是我们相比于 SVD 等视频开源模型的优势。结合 T2I 领域预训练好的 ControlNet,可以实现局部控制生成,以尽量还原商品细节,当前我们上线版本已全部切换为该模型。

2.3 动效场景模板适配

由于输入商品图像的质量一定程度会影响动效生成的效果,有较多图片中并未包含任何动态元素,这种情况下,进行图像到视频的转换显得比较困难,容易产出“偏静态”的视频。因此,基于以上考量,我们与设计师共建了视频动效场景模板,并针对每个不同的场景描述定制化了特殊的动态描述。其中视频动效场景列表包含了诸如“山间云海”、“海底世界”等动态场景,同时在大促节日时,会专门设计一批用于节日宣传的动态模板进行投放(如下图是在38大促期间设计的两个动效模板)。

场景模板名称AIGC图片动效视频
粉色烟花9697715e7a245d5d57e6aee763a79f40.png47e69b00a19085fdd1e4c041547bf532.gif
粉色世界6fca27f3f2b600b31a35fa1b9abbdbc3.png85734c76e20d0232a655ea797b19e68f.gif

3. 业务应用

当前,电商视频动效生成已经在阿里妈妈-万相实验室(https://agi.taobao.com)和广告投放平台进行上线,支持广告主在线生成视频动效。以下是生成的一些样例:

输入图片
动效视频
10f32297c967a67be3168a2ca008748e.png0fb0ccebc4635ab820ce4cacf6bd9e80.gif
4dee16999def7608fbaf92f521dac975.png93104ed3afd724186a32b4d74de66440.gif
a372b8c212f149dc0d02d0299e3c838d.png1fd9f42b85a8e4e75a694f70848a79e0.gif
3394a208e7b9f0ced6855c55c4112049.png1aa6b3d47c6dbf037dc852f3161736bc.gif
3075bede16cc28d10fbc8f1840a7d168.png

7eeb36f2dc8d98e6fea60fc1fc7a08a5.gif

7c2c41d08424285761a64383b0f5bf5b.png977d6a00c38ccb41d165b3fe320b213b.gif

4. 总结与展望

近半年,AIGC 视频生成技术取得了令人瞩目的飞跃发展。随着 GEN-2、PIKA 1.0、Sora 等视频创作工具和模型的出现,影视制作和多媒体设计等行业正迎来一场创造力的革新风暴,这些技术正在推动视频内容制作向着更高的逼真度和更强的可控性迈进。本文介绍了我们团队在视频 AIGC 赋能视频广告创意的探索和实践,通过基于扩散模型的视频生成技术,结合可控生成技术,使得静态电商图片栩栩如生地“动”了起来,实现了在电商领域的视频 AIGC 应用落地。

然而,目前的技术实现还远未触及视频生成的真正潜力,在视频画面的稳定性、内容创造的可控性以及视频时长等关键要素上,仍有很大的进步空间值得我们探索。Sora 的出现也让我们看到了未来视频创作工具大规模应用的曙光,Diffusion Transformer、Scaling Up 等关键技术给了我们很多启发,在未来,希望不断提升基础模型生成效果的同时,用视频 AIGC 技术赋能更多业务场景。

关于我们

我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣同学欢迎投递简历加入我们。✉️ 简历投递邮箱:alimama_tech@service.alibaba.com

END

2838b1ab0933e6a76c5d3508efb3487d.gif

也许你还想看

🔥《计算机视觉 in 阿里妈妈》文章合集

视频尺寸魔方:分层遮掩3D扩散模型在视频尺寸延展的应用

ACM MM’23 | 4篇论文解析阿里妈妈广告创意算法最新进展

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

化繁为简,精工细作——阿里妈妈直播智能剪辑技术详解

CVPR 2023 | 基于内容融合的字体生成方法

CVPR 2023 | 基于无监督域自适应方法的海报布局生成

关注「阿里妈妈技术」,了解更多~

7490b3370515089a013918166e7a12e4.gif

喜欢要“分享”,好看要“点赞”哦ღ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/461446.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Yolo系列算法-理论部分-YOLOv3

0. 写在前面 YOLO系列博客,紧接上一篇Yolo系列算法-理论部分-YOLOv2-CSDN博客 1. YOLOv3-定型之作 2018年,Redmon团队推出YOLOv3的网络模型,将骨干网络(backbone)由darknet-19替换成darknet-53网络,加入特…

【Python循环2/5】for循环的复杂应用

目录 序言 导入1 累加 练习 导入2 计数器 练习 导入3 if判断 总结 序言 昨天,我们学习了 for 循环遍历列表、字典等数据的方式。今天我们会学习,for 循环与“累加” 、if 判断和“计数器”的结合运用。 导入1 在前面的学习中,我们学…

计算机网络——物理层(数据交换方式)

计算机网络——数据交换方式 提高数据交换方式的必要性电路交换电路交换原理电路交换的阶段建立阶段通信阶段和连接拆除阶段 电路交换的优缺点报文交换什么是报文报文交换的阶段报文交换的优缺点 分组交换分组交换的阶段分组交换的优缺点 数据交换方式的选择数据报方式数据报方…

VS Code上,QT基于cmake,qmake的构建方法(非常详细)

VS Code上,QT基于cmake,qmake的构建方法 1 前言2 QT基于cmake的构建方法2.1 VS Code关键插件安装2.2 系统环境变量配置2.3 VS Code中,环境变量配置2.4 Cmake新建一个新的Porject 3 QT基于qmake的构建方法 1 前言 最近,由于认证了github的学生…

尺寸小又薄的整流桥IBS

1. 整流桥功能介绍 整流桥在电子领域中扮演着至关重要的角色,为各种电子设备和电路提供了稳定的电源。整流桥的主要作用是将交流电信号转换为直流电信号。当交流电信号通过整流桥时,它会使得只有一个方向的电流能够通过,从而实现了将交流电信…

【数据结构练习题】栈——1.括号匹配 2.逆波兰表达式求值 3.出栈入栈次序匹配 4.最小栈

♥♥♥♥♥个人主页♥♥♥♥♥ ♥♥♥♥♥数据结构练习题总结专栏♥♥♥♥♥ 文件目录 前言1.括号匹配1.1问题描述1.2解题思路1.3画图解释1.4代码实现2.逆波兰表达式求值 2.1问题描述2.2解题思路2.3画图解释2.4代码解释3.出栈入栈次序匹配 3.1问题描述3.2思路分析3.3画图解释3.…

金融知识分享系列之:MACD指标精讲

金融知识分享系列之:MACD指标精讲 一、MACD指标二、指标原理三、MACD指标参考用法四、MACD计算步骤五、MACD分析要素六、根据快线DIF位置判断趋势七、金叉死叉作为多空信号八、快线位置交叉信号九、指标背离判断行情反转十、差离值的正负十一、差离值的变化十二、指…

KBP210-ASEMI新能源专用整流桥KBP210

编辑:ll KBP210-ASEMI新能源专用整流桥KBP210 型号:KBP210 品牌:ASEMI 封装:KBP-4 正向电流(Id):2A 反向耐压(VRRM):1000V 正向浪涌电流:6…

中整协与成都艺星联合主办的“面部馒化修复注射技术培训班”圆满落下帷幕

在追求医疗美容学科深度的道路上,Yestar成都艺星再次成为行业先锋,近日,由中整协与成都艺星整形美容医院联合主办的“面部馒化修复注射技术培训班”在Yestar成都艺星圆满落下帷幕。本次培训班以其严谨的学术精神和对临床治疗思路的深入解读&a…

在idea中配置tomcat服务器,部署一个项目(下载教程加链接)

第一步:把Tomcat下载好 ww​​​​​​​Apache Tomcat - Welcome! 链接如上:进去后在左边找到Tomcat8点击进去后 找到图下内容 第二步: 打开这个文件点击bin进去 会出现一个黑色框框,也就是服务器 完成后就可以在浏览器输入…

Redis 搭建主从集群

文章目录 1. 主从集群架构1.1 准备实例和配置1.2 启动1.3 开启主从关系1.4 测试 2. 主从同步原理2.1 全量同步2.2 增量同步repl_backlog原理 2.3 主从同步优化小结 单节点的 Redis 并发能力有限,要进一步提高 Redis 的并发能力,就需要搭建主从集群&#…

2024年无人直播是否已经成为新趋势,商家使用矩图AI无人直播月增长5万+

无论是 个体商户、企业经营者、电商从业者、想创业赚钱的朋友;也不管你是做餐饮还是非餐饮;亦或是抖音小时达外卖。这篇文章,请勿必看完,对你的业绩增长是有绝对的帮助。 无人直播的发展经历了几个时代,现在已经到了4.0的时代,更安…

刷题DAY24 | LeetCode 77-组合

1 回溯法理论基础 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。回溯是递归的副产品,只要有递归就会有回溯。 所以以下讲解中,回溯函数也就是递归函数,指的都是一个函数。 1.1 回溯法的效率 回溯法的性能如何呢&#xff0…

深入探索Java并发编程:ArrayBlockingQueue详解

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 在Java的并发编程世界中,java.util.concurrent包为我们提供了多种用于线程间安全通信的数据结构,其中Arra…

PTA冰岛人

作者 陈越 单位 浙江大学 2018年世界杯,冰岛队因1:1平了强大的阿根廷队而一战成名。好事者发现冰岛人的名字后面似乎都有个“松”(son),于是有网友科普如下: 冰岛人沿用的是维京人古老的父系姓制,孩子的姓…

【研发日记】Matlab/Simulink技能解锁(二)——在Matlab Function编辑窗口Debug

文章目录 前言 行断点 条件断点 按行步进 Watch Value 分析和应用 总结 前言 见《【研发日记】Matlab/Simulink技能解锁(一)——在Simulink编辑窗口Debug》 行断点 当Matlab Function出现异常时,如果能确定大致的代码段,就可以在相应的行上设置一…

为什么单线程的 Redis 能那么快?

大家好我是苏麟 , 给大家找一些好的文章看看 . 原文文章 : 03 高性能IO模型:为什么单线程Redis能那么快? (lianglianglee.com) Redis 为什么用单线程? 要更好地理解 Redis 为什么用单线程,我们就要先了解多线程的开销。 多线程的…

算法打卡day18|二叉树篇07|Leetcode 530.二叉搜索树的最小绝对差、501.二叉搜索树中的众数、236. 二叉树的最近公共祖先

算法题 Leetcode 530.二叉搜索树的最小绝对差 题目链接:530.二叉搜索树的最小绝对差 大佬视频讲解:二叉搜索树的最小绝对差视频讲解 个人思路 因为是在二叉搜索树求绝对差,而二叉搜索树是有序的,那就把它想成在一个有序数组上求最值&…

CVE-2019-5782:kArgumentsLengthType 设置偏小导致优化阶段可以错误的去除 CheckBound 节点

文章目录 环境搭建漏洞分析笔者初分析笔者再分析漏洞触发源码分析 漏洞利用总结 环境搭建 sudo apt install pythongit reset --hard b474b3102bd4a95eafcdb68e0e44656046132bc9 export DEPOT_TOOLS_UPDATE0 gclient sync -D// debug version tools/dev/v8gen.py x64.debug ni…

分布式调用与高并发处理(二)| Dubbo

文章目录 Dubbo概念_什么是分布式系统单机架构集群架构分布式架构单机、集群和分布式的区别 Dubbo概念_什么是RPCRPC两个作用:常见 RPC 技术和框架: Dubbo概念_简介Dubbo能做什么Dubbo支持的协议 Dubbo概念_核心组件注册中心Registry服务提供者Provider服…