AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
卡奥斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

AIGC时代,视频创作这事儿真的不一样了。

就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~

图片

图片

想要调整一下镜头角度,交给AI,同样能一键完成:

图片

还能一键消除、修改目标:

图片

后期再也不用加班加到手抽筋(doge)。

划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。

就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。

这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。

演示一出,现场的观众都坐不住了。

图片

而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:

不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力

“寻梦光影间”

所谓寻光,意指“寻梦光影间”:

即通过人工智能技术,提供全新的视频创作模式。

图片

与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。

达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。

另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。

举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。

图片

在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:

老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。
这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?

达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程

具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。

图片

并且在交互方面,主打“让视频编辑像操作PPT一样简单”

以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。

在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。

在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。

图片

而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力

以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。

图片

寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。

飘动的头发也扣得很精细的那种:

图片

另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。

图片

运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。

图片

在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:

图片

视频取自国风武侠动漫《少年白马醉春风》第三集

轻轻一拉实现运动控制:

图片

如此看来,寻光可以说集成了市面上最完备的AI编辑功能,把一整个视频制作工作流都给AI化了。相比于在各种工具间跳来跳去,在传统工作流中零散地插入AI能力,属实更加方便、高效了。

重塑视频创作工作流

探索更理解物理世界规律、生成时长更长、生成效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。

但当更强大的AI面世后,人们能否更快掌握这种新型生产力,同样是值得关注的话题。

在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点:

从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具对效率的提升。
AI视频创作需要统一的UI。

图片

陈威华也在WAIC现场谈到:

今天我们正处在AI视频生成这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光视频创作平台就是每一个人手中的利器,是每一个人的专属视频工作室,在这个平台上,AI与创作者之间能够更紧密高效地协作。

为此,寻光平台背后的达摩院视觉技术实验室已做了大量技术储备。

该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。

AIGC在全世界范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。

现在,解放生产力的第一步,已经开始落地实践,你期待吗?

官网地址:
https://xunguang.damo-vision.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/785198.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

macbook触控栏养宠物:Touchbar pet for Mac 免费下载

macbook pro自从出了touchbar后,看起来是十分的炫酷,但平时却很少有人使用,为了让touchbar充分利用起来,Touch bar pet就横空出世了,可爱的画风,简单的玩法,让你可以在touchbar上也可以养一只自…

【C语言】测试TCP带宽程序

多线程测带宽 服务端 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <arpa/inet.h> #include <sys/socket.h> #include <sys/epoll.h> #include <time.h> #include <pthrea…

C++ 类和对象 构造 / 析构函数

一 类的6个默认成员函数&#xff1a; 如果一个类中什么成员都没有&#xff0c;简称为空类。 例&#xff1a; #include <iostream> class Empty {// 空类&#xff0c;什么成员都没有 }; 空类中真的什么都没有吗&#xff1f;并不是&#xff0c;任何类在什么都不写时&a…

python--实验5 字典与集合

知识点 集合 集合&#xff08;Set&#xff09;在Python中是一种基本的数据结构&#xff0c;用于存储无序且不重复的元素。以下是关于集合的详细介绍&#xff1a; 集合的定义和特点 无序性&#xff1a;集合中的元素没有特定的顺序。 不重复性&#xff1a;集合中的元素都是唯…

OpenGL3.3_C++_Windows(28)

Demo演示 demo 视差贴图 视差/高度/位移贴图&#xff08;黑--白&#xff09;&#xff1a;和法线贴图一样视差贴图能够极大提升表面细节&#xff0c;使之具有深度感。第一种思路&#xff08;置换顶点&#xff09;&#xff1a;对于一个quad &#xff0c;分成约1000个顶点&#x…

Fastapi在docekr中进行部署之后,uvicorn占用的CPU非常高

前一段接点小活&#xff0c;做点开发&#xff0c;顺便学了学FASTAPI框架&#xff0c;对比flask据说能好那么一些&#xff0c;至少并发什么的不用研究其他的asgi什么的&#xff0c;毕竟不是专业开发&#xff0c;能少研究一个东西就省了很多的事。 但是部署的过程中突然之间在do…

vue3+ts 重复参数提取成方法多处调用以及字段无值时不传字段给后端

参数提取前的写法&#xff0c;此写法值为空的时候也会传空字段给后端 会把无值的空字段传给后端 修改后的写法&#xff0c;不会把没有值的字段传给后端 // 列表和导出需要传给后端的公共参数&#xff08;加 || undefined即可过滤空字段&#xff09; const getCurentParam () …

HackTheBox--BoardLight

BoardLight 测试过程 1 信息收集 NMAP端口扫描 端口扫描开放 22、80 端口 80端口测试 # 添加 boardLight.htb 到hosts文件 echo "10.10.11.11 boardLight.htb" | sudo tee -a /etc/hosts检查网页源代码&#xff0c;发现 board.htb # 添加 board.htb 到 hosts 文…

LeetCode-刷题记录-前缀和合集(本篇blog会持续更新哦~)

一、前缀和&#xff08;Prefix Sum&#xff09;算法概述 前缀和算法通过预先计算数组的累加和&#xff0c;可以在常数时间内回答多个区间和相关的查询问题&#xff0c;是解决子数组和问题中的重要工具。 它的基本思想是通过预先计算和存储数组的前缀和&#xff0c;可以在 O(1)…

免费压缩pdf文件大小软件收费吗?pdf如何压缩文件大小?12款压缩应用推荐!

在数字化时代&#xff0c;PDF文件因其跨平台、格式统一的特点而广受欢迎。然而&#xff0c;随着文件内容的增加&#xff0c;PDF文件的大小也逐渐增大&#xff0c;给存储和传输带来了诸多不便。因此&#xff0c;寻找一款合适的PDF压缩软件成为了许多用户的需求。本文将详细介绍1…

网络祭祀人物微信小程序模板源码

模板介绍 手机端网络祭祀&#xff0c;在线祭祀&#xff0c;创建纪念历史人物小程序前端模板下载。包含&#xff1a;人物列表、详情、创建人物、个人中心等等页面。 图片演示 网络祭祀人物微信小程序模板源码

windows实现Grafana+Loki+loki4j轻量级日志系统,告别沉重的ELK

文章目录 Loki下载Grafana下载安装Loki添加Loki数据源springboot日志推送 Loki下载 下载地址&#xff1a;https://github.com/grafana/loki/releases/ 找到loki-windows-amd64.exe.zip点击开始下载&#xff0c;我这里下载的2.9.9版本 Grafana下载 下载地址&#xff1a;http…

Centos7离线安装ElasticSearch7.4.2

一、官网下载相关的安装包 ElasticSearch7.4.2&#xff1a; elasticsearch-7.4.2-linux-x86_64.tar.gz 下载中文分词器&#xff1a; elasticsearch-analysis-ik-7.4.2.zip 二、上传解压文件到服务器 上传到目录&#xff1a;/home/data/elasticsearch 解压文件&#xff1…

如何找到关于目标检测小论文的创新点

深度学习目标检测的小论文创新点 数据集预处理创新 主要包括图像增强、图像去雾、图像融合和图像降噪 例子: 比如在研究方向是检测晚上或者天气不好时骑电动车的人是否佩戴了安全头盔。一般的检测可能只能检测到正常天气情况下的骑电动车的人&#xff0c;而对于大雾天气和晚上…

【教程】计算机组成原理

一、计算机系统概述 1.1 计算机系统组成 1.1.1 计算机的硬件系统结构 硬件系统由运算器、存储器、控制器、输入设备和输出设备5个部件组成。 五大部件的基本功能&#xff1a; 运算器&#xff1a; 完成算术和逻辑运算&#xff1b;控制器&#xff1a; 用来控制、执行程序&…

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION--论文笔记

论文笔记 资料 1.代码地址 https://github.com/google-research/sam https://github.com/davda54/sam 2.论文地址 https://arxiv.org/abs/2010.01412 3.数据集地址 论文摘要的翻译 在当今严重过度参数化的模型中&#xff0c;训练损失的值很难保证模型的泛化能力。事实上…

STM32 - SPI硬件外设

配合我的上一篇SPI ​​​​​​通信 协议-CSDN博客一起理解更佳&#xff0c;本文后看 SPI 是由摩托罗拉(Motorola)公司开发的全双工同步串行总线&#xff0c;是 MCU 和外围设备之间进行通信的同步串行端口。主要应用在EEPROM、Flash、RTC、ADC、网络控制器、MCU、DSP以及数字信…

Sleuth--链路追踪

1 链路追踪介绍 在大型系统的微服务化构建中&#xff0c;一个系统被拆分成了许多模块。这些模块负责不同的功能&#xff0c;组合成 系统&#xff0c;最终可以提供丰富的功能。在这种架构中&#xff0c;一次请求往往需要涉及到多个服务。互联网应用构建 在不同的软件模块集上&am…

MySQL Buffer Pool

总结自&#xff1a;小林coding&#xff0c;bojiangzhou 虽然说 MySQL 的数据是存储在磁盘里的&#xff0c;但是也不能每次都从磁盘里面读取数据&#xff0c;这样性能是极差的。 要想提升查询性能&#xff0c;加个缓存就行了嘛。所以&#xff0c;当数据从磁盘中取出后&#xff…

Vue3项目打包优化

前言 本文介绍在实际项目中进行打包优化过程 目前评分 good npm install web-vitals在App.vue加入如下代码测试网页性能指标 import { onLCP, onINP, onCLS, onFCP, onTTFP } from web-vitals/attributiononCLS(console.log) onINP(console.log) onLCP(console.log) onFCP(…