视频大模型 Vidu 支持音视频合成;字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@CY,@JLT,@鲍勃

01 有话题的新闻

1、视频大模型 Vidu 大更新,首次支持音视频合成

据钛媒体 AGI 报道,生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型 Vidu,近期完成三个最新、重大技术迭代:

目前 Vidu 可以一键生成 32s 视频;

支持音视频合成,即 Vidu 视频生成有声音了(Text-2-Audio)

支持 4D 生成,可以从单一视频生成时空一致的 4D 内容

Vidu 是自 Sora 发布之后,全球率先取得重大突破的视频大模型,也是国内唯一能够性能全面对标国际顶尖水平的视频生成模型,并且仍在加速迭代提升中。(@爱范儿)

2、快手对标 Sora 发布视频生成大模型「可灵」,支持生成 2 分钟视频

快手 6 月 6 日宣布,「可灵」视频生成大模型官网正式上线,效果对标 OpenAI 旗下的视频生成大模型 Sora。快手介绍称,可灵大模型为快手 AI 团队自研,采用与 Sora 相似的技术路线,结合了多项自研技术创新。该模型支持生成长达 2 分钟、帧率 30fps 的视频,分辨率可高达 1080p,并支持自由的宽高比。

而快手也对其文生视频效果感到自信。据介绍,可灵大模型能够生成大幅度的合理运动,并使其符合客观运动规律。在官方给出的视频范例中,一位宇航员在月球上奔跑,随着镜头慢慢抬升,宇航员的步态和影子都能保持合理恰当。

快手表示,此前各家放出的视频大模型均以展示视频为主,可灵大模型已上线快手旗下的快影 App,面向公众开放邀测体验。( @Zaker)

3、Pika 完成近 6 亿 B 轮融资,即将发布全新视频生成大模型

6 月 6 日,AI 视频生成初创公司 Pika 日前已完成总额 8000 万美元(约合 5.798 亿元人民币)的 B 轮融资,由 Spark Capital 领投,Greycroft、Lightspeed Venture Partners 以及 Jared Leto 参投,公司估值超过 4.7 亿美元(约合人民币 34.06 亿元),较上一轮翻了一倍。截至目前,Pika 总融资额已达 1.35 亿美元。

据悉,Pika 成立于 2023 年 4 月,由斯坦福大学 AI Lab 博士生郭文景(Demi)、孟辰霖(Chenlin Meng)以及陈思禹创办,开发基于 AI 模型技术的文生视频工具,并于 2023 年 11 月发布首款 AI 视频生成产品 Pika 1.0,并在 Discord 上测试 Web 应用等产品。

人员方面,Pika 透露,公司团队从 3 人增加到了数十人。(@钛媒体)

4、腾讯发布混元 DiT 模型加速库,生图时间缩短 75%

腾讯昨日发布针对腾讯混元文生图开源大模型(简称混元 DiT 模型)的加速库,让推理效率大幅提升,生图时间缩短 75%。同时,腾讯表示混元 DiT 模型的使用门槛也大幅降低。用户可以基于 ComfyUI 的图形化界面,使用腾讯混元文生图模型能力。另外,混元 DiT 模型已经部署至 Hugging Face Diffusers 通用模型库中,用户仅用三行代码即可调用混元 DiT 模型,无需下载原始代码库。(@爱范儿)

5、Stable Audio Open 开源 AI 模型发布

Stability AI 推出了 Stable Audio Open,这是一个开源的 AI 模型,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建
47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效。该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。StableAudio Open 已经开源,感兴趣的用户可以在 HuggingFace 上试用。(@AI 洞察局)

6、LiveKit 获 2250 万美元 A 轮融资

AI 音视频基础设施平台初创公司 LiveKit 宣布筹集了 2250 万美元的 A 轮融资。本轮融资由 Altimeter 领投,Redpoint 以及包括 Jeff Dean、Elad Gil 等专注于 AI 领域的杰出人士提供支持。

LiveKit 计划将筹集的资金用于巩固其作为构建实时语音和视频应用的默认技术栈的地位,扩展其 AI 基础设施服务,并开发新产品以服务于新的用例。LiveKit 成立于 2021 年,其主营业务是提供灵活、开源的技术栈,使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。(@AI 洞察局)

7、字节跳动近日推出 Seed-TTS 模型

Seed-TTS 是一组大规模的自回归 TTS 模型,能够生成高度自然且富有表现力的语音。其设计目标是实现与人类语音几乎无差别的语音生成。Seed-TTS 在多个方面表现出色,包括零样本语音上下文学习(ICL)、说话者微调和情感控制。模型通过大量数据训练,展示了强大的泛化能力和潜在的应用场景,如虚拟助手、有声读物和视频配音等。(@AIGC 研习所)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/688937.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙全栈开发-浅谈鸿蒙~线程模型

前言 如果你现在正巧在找工作,或者琢磨着换个职业跑道,鸿蒙开发绝对值得你考虑一下。 为啥?理由很简单: 市场需求大:鸿蒙生态还在持续扩张,应用开发、系统优化、技术支持等岗位需求旺盛,找工作…

三分搜索峰值

问题 现在有一个数组,显示递增,后是递减,如何找到它的峰值? 思路 可以利用分治的思想,向二分查找一样,每次将要查询的区域分成若干个区域,根据区域的特殊点的值淘汰一些区域,缩小…

基于Python的Selenium详细教程

一、PyCharm安装配置Selenium 本文使用环境:windows11、Python 3.10.5、PyCharm 2022.1.3、Selenium 4.3.0 需要你懂的技术:Python、HTML、CSS、JavaScript 1.Seleium安装: 在PyCharm终端或window命令窗口输入以下命令 #查看已安装的Pytho…

硬件产品经理

边端协调管理平台 主页一:模型管理1.1 边侧模型管理 二:配置管理2.1 终端软件配置管理 三:设备管理3.1 区域位置管理3.2 工控机管理(其实就是围绕授权)3.3 生产设备管理3.4 设备运行管理 四:数据服务4.1 实…

ISP:企业数字化发展的关键推动力

在当今信息化时代,互联网已成为人们生活和工作中不可或缺的一部分。然而,对于很多人来说,ISP这一概念仍显得有些陌生。ISP,即互联网服务提供商(Internet Service Provider),是为用户提供互联网接…

【课程总结】Day6(上):机器学习项目实战--外卖点评情感分析预测

机器学习项目实战:外卖点评情感分析预测 项目目的 基于中文外卖评论数据集,通过机器学习算法,对评论内容进行情感预测。 数据集 地址:http://idatascience.cn/dataset-detail?table_id429数据集字段 字段名称字段类型字段说…

package.json中resolutions的使用场景

文章目录 用途配置示例使用方法注意事项和peerDependencies有什么不同peerDependenciesresolutions 总结 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄潮儿的…

谈AI 时代网站的未来趋势

以大语言模型为代表的AI 技术迅速发展,将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。 互联网时代,主要是通过网站(website)提供信息。网站主要为人类阅读的方式构建的。主要…

阿里 Qwen2 模型开源,教你如何将 Qwen2 扩展到百万级上下文

本次开源的 Qwen2 模型包括 5 个尺寸,分别是 0.5B、1.5B、7B、72B、57B,其中 57B 的属于 MoE 模型(激活参数 14B),其余为 Dense 模型,本篇文章会快速介绍下各个尺寸模型的情况,然后重点介绍下如…

西门子PLC学习之数据块的单个实例,多重实例与参数实例间的区别

首先介绍下函数,函数块与数据块这三个概念。 数据块 数据块里可以存储各种类型的参数。有人可能会问,m寄存器不是可以存储布尔值,8位,16位,32位变量吗,为什么要多此一举?因为虽然m寄存器能存储以…

LAMPSECURITY: CTF4 靶机实战

信息收集: 存活扫描: 端口扫描: 服务扫描: web页面: blog页面发现注入点: sql注入: sqlmap一把梭: 多个参数记得打: 哦 ssh登录: 老版本的ssh,…

重回1990短视频全集:成都鼎茂宏升文化传媒公司

重回1990短视频全集:时光之旅的温情回顾 在数字技术的浪潮中,短视频以其独特的魅力迅速崛起,成为我们记录生活、分享故事的新方式。而当我们回望过去,那些充满怀旧情怀的年份总是让人心生感慨。今天,就让我们一起踏上…

Oracle EBS AP发票创建会计科目提示:APP-SQLAP-10710:无法联机创建会计分录

系统版本 RDBMS : 12.1.0.2.0 Oracle Applications : 12.2.6 问题症状: 提交“创建会计科目”请求提示错误信息如下: APP-SQLAP-10710:无法联机创建会计分录。 请提交应付款管理系统会计流程,而不要为此事务处理创建会计分录解决方法 数据修复SQL脚本: UPDATE ap_invoi…

Linux 36.3 + JetPack v6.0@jetson-inference之图像分类

Linux 36.3 JetPack v6.0jetson-inference之图像分类 1. 源由2. imagenet2.1 命令选项2.2 下载模型2.3 操作示例2.3.1 单张照片2.3.2 视频 3. 代码3.1 Python3.2 C 4. 参考资料5. 补充5.1 第一次运行模型本地适应初始化5.2 samba软连接 1. 源由 从应用角度来说,图…

使用 Apache Commons Exec 自动化脚本执行实现 MySQL 数据库备份

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

windows任意窗口置顶/前台显示/不被最小化或遮挡

问题:在办公时,当同时需要打开好几个重要的窗口,比如需要对若干个文件夹里的文件进行操作,几个窗口都需要一直在桌面前台显示,但这样的话容易在打开其他页面或是切其他窗口的时候被遮挡,因此考虑如何让几个…

Java学习笔记(六):Array List、学生管理系统、学生管理系统升级版

目录 一、ArrayList 1.1集合和数组的优势对比: 1.2 ArrayList类概述 1.3 ArrayList类常用方法 1.3.1 构造方法 1.3.2 成员方法 1.4 ArrayList存储字符串并遍历 1.5 ArrayList存储学生对象并遍历 1.6 查找用户的索引 1.7 添加手机对象并返回要求的数据 二…

想要提升地推效果吗?试试Xinstall数据查看功能,让您事半功倍!

在如今竞争激烈的移动互联网时代,地推作为一种直接有效的推广方式,受到了越来越多企业和品牌的青睐。然而,地推过程中产生的数据如何高效地收集、整理和分析,成为了摆在推广者面前的一大难题。Xinstall作为一款专业的App推广工具&…

开发人员必备的常用工具合集-lombok

Project Lombok 是一个 java 库,它会自动插入您的编辑器和构建工具,为您的 Java 增添趣味。 再也不用编写另一个 getter 或 equals 方法了,只需一个注释,您的类就拥有了一个功能齐全的构建器,自动化了您的日志记录变量…

CSS基础知识汇总

目录 CSS 基础知识1. CSS 的基本结构2. 选择器3. 常用 CSS 属性4. CSS 单位5. CSS 盒模型 总结 学习 CSS(Cascading Style Sheets)是前端开发的重要部分,它用于控制网页的样式和布局。以下是学习 CSS 过程中需要掌握的基本概念、符号和对应的…