阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能

引子:穿越二维与三维的艺术边界

在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。

近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——“通义舞王”。

image.png

该功能内置于通义千问APP中,它突破了平面与立体、静止与动态之间的壁垒,能够将一张普通的照片在短时间内转化为一段神形兼备的舞蹈视频,让每一位用户都能感受到科技进步带来的魔法般的艺术体验。接下来,就带领各位一起切身体验一下吧!

从照片到舞者:体验一键唤醒沉睡的灵魂

目前,该功能只适用于手机APP端,web端暂时不支持哈。

image.png

所以请先在手机下载通义APP,下载完成后在输入框输入“通义舞王”,然后就会跳转进舞王界面了,具体操作如下:

640.gif

点击立即体验热舞,我们可以看到很多模板,这些模板包含了当前比较热门的“科目三” “DJ慢摇”等视频:

image.png

我们选到最热门的科目三栏目下面,此时会有几个已有人物模板,但是做为一个真正的ikun,我的梦想一直是希望能看到我家鸽鸽跳这支舞,所以我毫不犹豫的上传了他的照片。

对于上传的照片,其实也是有要求的,最好是一张清晰的正面单人照片,尽量避免有遮挡物或背景干扰

5791c45818c07b7e01673a5999d8c47.jpg

对于用户自己上传的照片,将其视频化需要一定的时间,根据笔者的体验平均需要10分钟15分钟之间,所以只需要耐心等待即可~此时可以保留后台去刷刷别的视频,当制作完成后会有相应提示的。

经过十几分钟的等待,鸽鸽跳舞的视频就生成好了,还能很好地保留原照片的面部表情、身材比例、服装以及背景等特征。

dba06a353b5fe29ba6b3f8bee34ed2ed.gif

“通义舞王”以其深度学习和计算机视觉的核心技术,赋予静态人物照片全新的生命力。只需上传一张照片,无论拍摄对象是谁,无论何种姿势,“通义舞王”都能够通过高精度的人脸识别及人体姿态分析算法,捕捉并模拟人物的关键动作点,进而将其与丰富多样的舞蹈模板无缝对接,生成逼真且富有表现力的舞蹈视频。

千变万化的舞蹈宇宙背后究竟是什么?

通义千问之所以能够实现生成流畅且高质量的舞蹈视频,依靠的是近期阿里巴巴XR实验室研发团队公布的一项名为“Animate Anyone”的创新算法,其核心能力是利用扩散模型从静态人物图像出发,自动生成流畅且连贯的角色动画视频。

image.png

Animate Anyone 可以将任意角色的照片转化为一系列按照所需姿势排列的动态视频内容,这一突破不仅显著提升了图像到视频合成的质量,特别是在角色动画的自然度和稳定性上,而且简化了传统动画制作流程,降低了创作门槛。

image.png

Animate Anyone使用扩散模型生成视频,同时引入了ReferenceNet来保持细节特征的一致性,Pose Guider来控制角色的动作,以及Temporal-Attention来保证视频帧之间的平滑过渡。它可以将静态的角色图像(包括真人、动漫/卡通角色等)转化为动画视频,同时保留角色的细节特征(如面部表情、服装细节等)。

  • ReferenceNet:负责编码参考图像角色的外观特征;

  • Pose Guider(姿态引导器):负责编码动作控制信号以实现可控角色运动;

  • Temporal layer(时间层):负责编码时间关系,以确保角色动作的连续性。

一些历史的姿态驱动视频生成方案,在生成的视频上容易出现视频一致性(准确度)减弱的问题。另一个核心的问题在于,之前的一些驱动方案在以人作为主题的视频生成,无法同时保证泛化性和一致性的能力。

而在该方法中,通过上述三个模块,能够将角色图片转化为受期望姿态序列控制的动画视频,同时确保外观一致性和时间稳定性。

image.png

在上面这张架构图中,我们也可以清晰的看到这三个模块之间的关系。

**ReferenceNet**

简单来说,构建了一个“完整Unet版”的Controlnet。设计了一个与去噪UNet结构相同的ReferenceNet。在每个UNet块的对应层,我们用空间注意力替换了自我注意力层,将ReferenceNet的特征与去噪UNet的特征相结合。

image.png

同时文章给出了和原生ControlNet的的取舍的原因:为什么不使用ControlNet 一般Unet+零卷积的实现方案,整体的原因是输入的控制信息,例如作为深度和边缘的canny特征控制,适合输入图像一致对齐的。但是落到现在的具体任务中,参考图像和目标图像在空间上相关但不一致(所以只能做controlNet reference-only相似生成)。因此,ControlNet不是适合直接应用。

**Pose Guider**

同样不同于COntrolNet的设计方式,为了不增加控制网络模型的复杂性,没有引入额外的插件来实现该功能。引入了一个轻量级的Pose Guider,它使用四个卷积层将姿态图像与噪声表达,将处理后的图像添加到噪声中,作为去噪UNet的输入。

image.png

时序Attention层:

受到AnimateDiff的启发。为了确保帧间的平滑过渡,在Res-Trans块中加入了时间时序Attention模块,通过时序Attention模块,来进行时空一致性的控制。时序Attention层位于Res-Trans块内,对特征图进行时间注意力操作,从而捕获帧间的相关性。时间层的输出与原始特征图通过残差连接相结合,以保留空间信息。这种设计可以实现让模型能够生成具有平滑帧间过渡的动画视频。

image.png

除此之外,该方法还采用了一种分阶段的训练策略,分为两个阶段进行训练,以实现高质量的角色动画。

第一阶段:

在第一阶段,使用单帧图像作为输入进行训练,暂时不使用时间层。这个阶段的主要目标是学习参考图像中的细节特征,并实现有效的运动控制。在这个阶段,仅训练ReferenceNet和Pose Guider。通过在单个图像上进行训练,模型能够专注于学习与参考图像相关联的细节特征,同时实现对角色运动的控制。这为后续阶段的训练奠定了基础。

第2阶段:

在第二阶段,引入时间层,并使用24帧视频序列进行训练。这个阶段的主要目标是实现帧间的平滑过渡,从而使生成的视频具有更好的时间连续性。通过在视频序列上进行训练,模型能够学习到帧间的相关性,并调整其生成过程以实现更自然的动画效果。

训练过程分为两个阶段有助于在不同阶段关注不同的目标,从而实现高质量的角色动画。在第一阶段,模型学习保留细节特征并实现运动控制;在第二阶段,模型进一步优化帧间过渡,使生成的视频更加流畅和自然。通过这种分阶段训练策略,能够在角色动画任务上取得优越的性能。

上述内容也是来自于论文中的,这里也给出相关链接,有兴趣的朋友可以直接看看。

anyone项目地址:https://humanaigc.github.io/animate-anyone/

论文地址:https://arxiv.org/pdf/2311.17117.pdf

仓库地址(目前尚未开源):https://github.com/HumanAIGC/AnimateAnyone

深度解读:科技如何重塑艺术表达?

“通义舞王”的诞生不仅刷新了我们对数字艺术的认知,也提出了关于未来艺术创作的新课题。当科技的力量逐渐渗透至传统艺术领域,会否催生出一种全新的艺术形式?人工智能能否成为艺术家们的创意伙伴,共同编织出超越现实的梦幻之舞?而作为普通用户,我们又该如何把握这种新工具,去创造属于自己的艺术故事,并在全球数字化的大背景下,分享个人独特的文化与情感表达?

对此,笔者看法如下:

首先,毫无疑问,科技能够为艺术创作注入了无限可能,极大地拓宽了艺术表现手法和媒介的范围。就以AI绘画为例,它通过深度学习技术模拟人类艺术家的创作风格与技法,能够在短时间内生成大量风格各异的艺术作品,无论是古典主义、抽象派还是超现实主义,都能被算法捕捉并重新演绎。这种新型的艺术生产方式不仅突破了物理空间和时间的限制,也使得艺术创作的门槛降低,让更多的创作者得以尝试艺术表达,从而推动艺术生态更加多元化,对于普通用户而言确实是一件大好事。

除此之外,科技确实也会催生出全新的艺术体验模式,比如今年云栖大会就有一个VR的李白展让我印象十分深刻,观众能够通过沉浸式VR/AR眼镜跨越时空面对面和李白交流,从被动接受者转变为主动参与者。这种参与性艺术实践模糊了创作者与观赏者的界限,使艺术作品的生命力得到了前所未有的延伸和深化。

然而,在科技带来的积极影响之外,我们也应审慎思考其潜在的负面问题。一方面,AI艺术创作可能会引发原创性和真实性的争议,因为机器虽能模仿各种艺术风格,但缺乏真正的人类情感内核和创意灵感,这可能导致艺术界对于“何为真正的艺术”这一基本命题产生混淆。另一方面,过度依赖科技可能会导致艺术创作陷入机械化、同质化的陷阱。若艺术仅是算法模型的结果而丧失了个体的创造力和独立思考,则艺术作品的多样性和复杂性将受到影响,甚至有可能阻碍艺术发展的内在动力。

此外,科技带来的便利性也可能改变艺术市场的格局,如版权归属问题肖像权问题、艺术品真实性判定等问题也随之浮现,这些都需要在法律制度和伦理规范层面进行深入探讨和完善。

共赴未来的艺术之旅

面对“通义舞王”所带来的颠覆性变革,我们不禁对未来充满了期待。这不仅仅是一个AI跳舞视频生成工具,更是连接现实与虚拟、个人与集体、传统与现代的一座桥梁。让我们携手踏上这段由科技驱动的艺术探索之旅,在“通义舞王”的助力下,一起见证并参与这场席卷全球的艺术革命!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/300652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

项目管理工具Maven

Maven Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机,Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. Maven基础内容 2. Maven的依赖管…

PHP文件代码加密系统,可批量全开源

代码文件加密系统 在程序运行时,实质上是在执行机器码,而虚拟机语言的基本概念是将程序加密到一定程度,也就是说,经过加密的PHP程序在执行时会被解密成opcode继续执行。 PHP在执行时会生成opcode,然后由Zend虚拟机继…

克服幻觉:提升语言模型在自然语言处理中的准确性与可靠性

随着语言模型(LLM)在自然语言处理(NLP)中的应用日益普及,它们在文本生成、机器翻译、情感分析等许多任务中展现出惊人的能力。然而,这些模型也常常显示出一个被称作“幻觉”(hallucination&…

37%规则,最优停止问题(麦穗理论)

近期又看到37%规则,又叫麦穗理论,有很多惊人的发现。 感觉像黄金分割,但又欠那么一点点1-0.6180.38238.2%。 有意思的是,有一个数学奖,叫菲尔兹奖,只将给不超过40岁的人。如果人能活100岁,那么…

springcloud微服务分布式 springboot+vue的轻院校园网购商城管理系统 Eureka

本文的研究目标是以商城的轻院网购商城管理体系为对象,论文的研究内容包括:商品信息、系统公告等方面进行了研究。系统以当前应用最为广泛的Java语言为基础,结合了目前应用最为广泛的嵌入式嵌入式平台,集成了B/S体系结构。数据库选…

Java分布式锁理论(redis、zookeeper) 详解

目录 一、分布式锁有哪些应用场景? 二、分布式锁的实现方案 三、zookeeper实现分布式锁 一直不释放锁怎么办? 如何避免分布式锁羊群效应问题? 四、redis实现分布式锁 一、分布式锁有哪些应用场景? 1、定时任务 2、秒杀抢购…

前端性能优化之图像优化

图像优化问题主要可以分为两方面:图像的选取和使用,图像的加载和显示。 图像基础 HTTP Archive上的数据显示,网站传输的数据中,60%的资源都是由各种图像文件组成的,当然这些是将各类型网站平均的结果,单独…

二分查找(一)

算法原理 原理:当一个序列有“二段性”的时候,就可以使用二分查找算法。 适用范围:根据规律找一个点,能将这个数组分成两部分,根据规律能有选择性的舍去一部分,进而在另一个部分继续查找。 除了最普通的…

ROS-机器人仿真urdf-rviz、xacro

文章目录 一、urdf集成rviz1.1 基本流程1.2 优化 rviz 启动 二、urdf语法详解2.1 robot2.2 link2.3 joint2.4 urdf练习2.5 urdf工具 三、URDF优化_xacro3-1 Xacro_语法详解3-2 Xacro_完整使用流程示例3- Xacro_实操 一、urdf集成rviz 1.1 基本流程 需求描述: 在 Rviz 中显示一…

simulink代码生成(四)——SCI模块:接收模块

首先,实现DSP28335的自收自发; 添加串口收发模块; 设置参数,根据硬件选择串口模块: 配置中断触发;SCIB的接收中断的CPU中断号为9,PIE级中断为3; 因此如下配置; 代码生成…

认识Git

🌎初识Git 初识Git 什么是Git Git的安装       Centos平台安装Git       Ubuntu平台安装Git Git的基本操作       创建远程仓库       配置Git 认识工作区、暂存区与版本库       添加文件到暂存区       将暂存区文件提交至本…

如何进行sql优化?

在日常工作中都避免不了要和各种SQL语句打交道,无论是开发还是后期维护,一条执行效率高的SQL语句都会对系统性能产生巨大影响。那么,如何进行有效的SQL优化呢?下面将为大家深入浅出地讲解SQL优化的各个方面: 1、了解数…

WorkPlus AI助理为企业提供智能客服的机器人解决方案

在数字化时代,企业面临着客户服务的重要挑战。AI客服机器人成为了提升客户体验和提高工作效率的关键工具。作为一款优秀的AI助理,WorkPlus AI助理以其智能化的特点和卓越的功能,为企业提供了全新的客服机器人解决方案。 为什么选择WorkPlus A…

格密码基础:光滑参数

目录 一. 铺垫高斯函数 二. 光滑参数图形理解 三. 光滑参数与格基本区 3.1 高斯与均匀分布的统计距离 3.2 光滑参数理解 四. 光滑参数与最短向量 五. 光滑参数与连续最小值 六. 光滑参数与对偶格的上界 七. 光滑参数与格的上界 八. 小结 一. 铺垫高斯函数 定义高斯密…

MIT 6.s081 实验解析——labs2

系列文章目录 MIT 6.s081 实验解析——labs1 MIT 6.s081 实验解析——labs2 文章目录 系列文章目录测试判断流程System call tracingsysinfo![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/ab9ca34f1fc64b6aa1df74613dc1a397.png) 测试判断流程 完成代码后将.c文…

K8S Prometheus-rocketmq-exporter配置

下载rocketmq-exporter 通过Docker仓库下载 docker pull sawyerlan/rocketmq-exporter:latest 然后打标签,推送到自己的仓库 也可通过代码自己build镜像 git clone GitHub - apache/rocketmq-exporter: Apache RocketMQ Prometheus Exporter 然后打标签&#x…

iPhone 恢复出厂设置后如何恢复数据

如果您在 iPhone 上执行了恢复出厂设置,您会发现所有旧数据都被清除了。这对于清理混乱和提高设备性能非常有用,但如果您忘记保存重要文件,那就是坏消息了。 恢复出厂设置后可以恢复数据吗?是的!幸运的是,…

React Portals

简介 React Portal 可以将组件渲染到dom树的不同位置,同时可以渲染到任意父级元素,可以实现漂浮层功能。 使用样例 本篇文章通过React Portals实现对话框,下面将会给出具体实现。 protal组件 Portal.jsx import {useState} from "re…

Java环境准备:JDK与IDEA

新手小白学Java–环境准备篇 文章目录 新手小白学Java--环境准备篇第1节 JDK的下载与安装第2节 IDEA的下载与安装第3节 使用IDEA创建第一个Java项目第4节 使用小技巧查看电脑的操作系统版本显示出文件的后缀名IDEA 修改字体大小IDEA 修改显示主题色IDEA 修改单行注释的颜色IDEA…

Mysql SQL审核平台Yearning本地部署

文章目录 前言1. Linux 部署Yearning2. 本地访问Yearning3. Linux 安装cpolar4. 配置Yearning公网访问地址5. 公网远程访问Yearning管理界面6. 固定Yearning公网地址 前言 Yearning 简单, 高效的MYSQL 审计平台 一款MYSQL SQL语句/查询审计工具,为DBA与开发人员使用…