今天,智谱「新清影」上线,率先进入有声视频生成时代!还要继续开源宠粉

来,你先把手机音量打开,然后去“听”下面一段视频:

你是不是一脸懵逼?不知道我想表达什么?

视频是AI生成的并不奇怪,但你可能没法相信,这个视频的音效,也是AI生成的。

火车鸣笛

你要是不信,可以继续听几个(音效和视频均由AI生成):

松鼠4K

等下,这个声音配的有点怪,也可能是我喇叭坏了,换一个...

再来个动物进食的。

小兔进食

我天,这音效配的,不止是没把剪映放眼里,连影视行业的音效师(Sound Designer)都要忍不住颤抖了。

这是智谱新推出的音效模型 CogSound ,本月即将在“智谱清言”里上线。

以后啊,忘掉你的音效素材库吧。视频和音效一把儿出,只想配音也没问题(偶尔遇到翻车的甚至更有喜感,有望成为一个新的流量赛道)。

我仔细玩了下,CogSound 对于视频语义和情感有不错的理解能力,音画同步也做的很流畅。像爆炸、动物叫声、乐器、城市噪声等比较常见的声音等,可以达到很高的可用性。但如果是一些人都不知道会发出啥声音的场景,就可能让AI蚌住。

比如给孟加拉巨蜥配音,我翻遍了整个Youtube也没找到一只开口叫出声的孟加拉巨蜥。这种就别为难AI了,它也是主要通过互联网数据来模仿学习动物叫声的

我还去扒了下CogSound的技术实现,直接挑重点讲下。

一方面,它采用优化后的U-Net结构作为扩散模型的核心框架,将音频生成从高维原始空间转到低维潜空间,大幅降低了计算复杂度,保证音频生成的高质量和高效率。

另一方面,引入了“分块时序对齐交叉注意力机制”,这个机制让CogSound能精准地将视频帧和音频特征对应起来,实现了画面和声音的完美同步;CogSound还用到了旋转位置编码,来确保生成的音频前后连贯,过渡自然。这个是音效流畅、过渡自然的重要因子。

从CogSound的这一波操作中,我更加能坚信一个事情。那就是,但凡某个工作,需要人去检索、扒拉的,理论上都能用生成式范式给定义一个新的任务出来,把用户检索query->满足用户query的内容构造成训练集,选择合适的大模型架构训个模型出来,然后本来要花大量时间去检索扒拉内容的那个工种,就因此被提效了。

比如,众所周知,程序员这个工作就是去百度/谷歌搜索别人的代码片段(误),然后就有了编程大模型。

回到正题,CogSound是我认为智谱这波的AI视频生成升级中一个非常惊艳的feature,这也将使智谱清言成为国内首个告别默片、生成有声AI影片的产品。

除了CogSound外,清影也做了一波升级。

升级后的新清影现在可以生成更长、更高清的自带音效的视频。

  • 10s时长:由5s增加到10s,16s视频也正在路上;

  • 4K、60帧超高清画质;

  • 支持任意比例的视频生成:比如9:16竖版视频,16:9横版视频,还有1:1、4:3、3:4。

除了基础功能升级外,我玩下来感知这次的图生视频功能也有了非常惊艳的进化,在质量、美学表现、运动合理性以及复杂提示词语义理解能力都有显著增强。

贴个我生成的视频给你们感受下:

人手的纹理和蜥蜴的皮肤纹理呈现的特别清晰,和现实几乎无异。

赛车

比如,飙车这种大幅的场景变化推进非常合理自然。

PS:新清影即日起就会在智谱清言网页和App 上线

CogSound也会在本月上线,两者一起玩,说不定会打开新的流量密码

你要问为啥效果变得这么好了,一句话解释——

因为新清影背后的模型又又又升级了!这个进化速度简直让摩尔定律都汗颜

为了拿到优质的训练数据,智谱专门构建了一个自动化的数据筛选框架,还训了一个用于标注视频数据的视频理解模型 CogVLM2-caption,来为视频生成高质量描述。

而且,这次在内容连贯性、可控性和训练效率上都进行了多项创新。自研了一个高效的三维变分自编码器结构(3D VAE),可以把原视频空间压缩至 2%,大大降低训练难度。另外,自研的transformer 架构融合文本、时间、空间3个维度,可以更好地将视觉信息与语义信息对齐。

必须要提的是,这次最新升级的CogVideoX 1.5,毫不意外的——

开源!

直接附上你们需要的传送门:

https://github.com/thudm/cogvideo

讲个比较恐怖的故事,一年多前世界上最先进的AI生成出来的视频还是很生硬的。如今,全链路自研的国产AI视频产品“智谱清影”,已经做到了音画同步地步, 这个进展速度还是牛的。

看到智谱这波在视频生成的升级,说真的很开心,也很骄傲,我们与国外的差距正在以超预期的速度在缩小。

智谱、可灵这几位国产代表,正在逐渐拉近与国际水平的差距。不止如此,开源文化虽起源于美国,但在这波AI大模型的开源速度&进化速度上,我觉得智谱是国内的开源No.1。追OpenAI的人,成为Open AI

而如果我们将目光从视频生成,拉远到整个多模态领域,你又会惊恐的发现一件事儿——

我觉得智谱的多模态模型生态真的快要“闭环”了。

除了智谱之外,我就没听说哪家模型同时有公开可用的文生图+文生视频+图生视频+音效生成+音乐生成+情感语音生成这一系列的多模态模型的。这个布局广度确实让我不禁好奇,等智谱把这个全链路打通后,是不是会引发什么神奇的化学反应,产生一系列AI新玩法。

从当前的技术积累就不难看出,沿着当前的速度继续迭代下去,可能用不了两年,我们或许只需要一个想法+一张底图,就能生成一段自带bgm、音效甚至配音的高可用视频。这不止影响的是影视行业的生产效率,这可能对于整个新媒体生态都会是一个巨大的冲击和机遇。

如今AI视频生成技术不够成熟,反物理的AI视频都能一波又一波的成为流量密码。随着技术的持续成熟,AI视频生成会逐渐从一个娱乐尝鲜的工具,蜕变成真正的生产力工具。

而对于我们大部分人来说,即便没有机遇去搞懂锤子是怎么造出来的,但若是能深谙锤子的用法和特性,或许,也能跟随AI浪潮迎风起飞。

速去智谱清言体验~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/912775.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「Mac畅玩鸿蒙与硬件31」UI互动应用篇8 - 自定义评分星级组件

本篇将带你实现一个自定义评分星级组件,用户可以通过点击星星进行评分,并实时显示评分结果。为了让界面更具吸引力,我们还将添加一只小猫图片作为评分的背景装饰。 关键词 UI互动应用评分系统自定义星级组件状态管理用户交互 一、功能说明 …

pdf转excel;pdf中表格提取

一、问题描述 在工作中或多或少会遇到:需要将某份pdf中的表格数据提取出来,以便能够“修改使用”数据 可将pdf中的表格提取出来,解决办法还有点复杂 尤其涉及“pdf中表格不是标准的单元格”的时候,提取数据到excel不太容易 比…

IT架构管理

目录 总则 IT架构管理目的 明确组织与职责 IT架构管理旨在桥接技术实施与业务需求之间的鸿沟,通过深入理解业务战略和技术能力,推动技术创新以支持业务增长,实现技术投资的最大价值。 设定目标与范围 IT架构管理的首要目的是确立清晰的组织…

小红书图文矩阵的运营策略与引流技巧解析

内容概要 小红书图文矩阵是一种高效的内容运营方式,能够帮助品牌在竞争激烈的环境中脱颖而出。通过构建矩阵账号,品牌可以实现多维度的内容覆盖,创造出丰富而立体的用户体验。为什么要做图文矩阵?首先,这种方式能够提…

python中常见的8种数据结构之一元组

元组(tuple)是Python中常见的数据结构之一,它是一个有序、不可变的序列。元组使用圆括号来表示,可以包含任意类型的元素,包括数字、字符串、列表等。元组的元素可以通过索引访问,但是不能修改。 下面是一些…

计算机毕业设计Python+大模型动漫推荐系统 动漫视频推荐系统 机器学习 协同过滤推荐算法 bilibili动漫爬虫 数据可视化 数据分析 大数据毕业设计

作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…

【leetcode练习·二叉树】用「分解问题」思维解题 I

本文参考labuladong算法笔记[【强化练习】用「分解问题」思维解题 I | labuladong 的算法笔记] 105. 从前序与中序遍历序列构造二叉树 | 力扣 | LeetCode | 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵…

产品经理晋级-Axure中继器制作美观表格

这里的效果,步骤如下: 点击中继器,输入表格信息;在中继器中创建表格内容,把你想要的效果制作在中继器中,表头有几个表格,这边就对应多少个。 按照视频的过程把中继器双击后-样式中的文本内容&am…

防火墙|WAF|漏洞|网络安全

防火墙|WAF|漏洞|网络安全 防火墙 根据内容分析数据包: 1、源IP和目的IP地址 2、有效负载中的内容。 3、数据包协议(例如,连接是否使用 TCP/IP 协议)。 4、应用协议(HTTP、Telnet、FTP、DNS、SSH 等)。 5…

【Linux系统编程】第四十四弹---从TID到线程封装:全面掌握线程管理的核心技巧

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、tid是什么 1.1、理解库 1.2、理解tid 1.3、tid中线程局部存储 2、封装线程 2.1、基本结构 2.2、函数实现 2.3、使用…

医学图像算法之基于Unet的视网膜血管分割

第一步:准备数据 视网膜血管分割数据比较少,但效果好,总共40张 第二步:搭建模型 UNet主要贡献是在U型结构上,该结构可以使它使用更少的训练图片的同时,且分割的准确度也不会差,UNet的网络结构…

ARM死机(HardFault)调试技巧详解(栈回溯,不破坏现场)

目录 Keil调试技巧: 一.不破坏现场连接仿真器与进入debug 二.栈回溯 死机调试示例 J-Link调试方法 示例:空指针异常 不能连接烧录器或者读取内存怎么办? 在日常开发中,经常会遇到单片机卡死机等问题,经常很难定…

nodejs 020: React语法规则 props和state

props和state 在 React 中,props 和 state 是管理数据流的两种核心机制。理解它们之间的区别和用途是构建 React 应用程序的基础。 一、props 和 state的区别 特性propsstate定义方式由父组件传递给子组件的数据组件内部管理的本地数据是否可修改不可变&#xff…

【开源免费】基于SpringBoot+Vue.JS水果购物网站(JAVA毕业设计)

博主说明:本文项目编号 T 065 ,文末自助获取源码 \color{red}{T065,文末自助获取源码} T065,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

python可视化进阶

引用: 首先需要安装 plotnine from plotnine import* import joypy数据可视化进阶操作 3.1 类别数据可视化 【例3-1】——绘制简单条形图 【代码框3-1】——绘制简单条形图 # 图3-1的绘制代码 import pandas as pd import matplotlib.pyplot as plt from cvxpy …

大模型入门自学资源汇总,很难找到比这还全的大模型学习资源总结了!

接触各种AI工具到现在也快两年了,今年和同学陆续做了一些AI应用的科普宣讲,在这过程中收集了不少自学资源,特地挑出一部分整理成以下的内容。 书籍 大模型应用开发极简入门:基于GPT-4和ChatGPT 首推今年年初出版的《大模型应用开…

为何选择Spring AI Alibaba开发智能客服平台?

0 前言 本文来看如何使用Spring AI Alibaba构建Agent应用。 1 需求 智能客服平台,可帮助用户完成机票预定、问题解答、机票改签、取消等动作,具体要求: 基于 AI 大模型与用户对话,理解用户自然语言表达的需求支持多轮连续对话…

Python学习从0到1 day27 第三阶段 Spark ② 数据计算Ⅰ

人总是会执着于失去的,而又不珍惜现在所拥有的 —— 24.11.9 一、map方法 PySpark的数据计算,都是基于RDD对象来进行的,采用依赖进行,RDD对象内置丰富的成员方法(算子) map算子 功能:map算子…

数据结构合并两个有序链表

数据结构 1.合并两个有序数组代码: 1.合并两个有序数组 这里我们可以创建一个新的对象作为合并后的新链表newHead,而NewHead.next就是我们要返回的头部的位置 在创建一个对象来获取nextHead.next下一个节点来作为我们新链表的起始位置防止我们的头部位置…

动态规划 —— dp 问题-买卖股票的最佳时机含手续费

1. 买卖股票的最佳时机含手续费 题目链接: 714. 买卖股票的最佳时机含手续费 - 力扣(LeetCode)https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-with-transaction-fee/description/ 2. 算法原理 状态表示:以某一个…