解密中国首个“音乐版Sora” | 最新快讯

解密中国首个“音乐版Sora” | 最新快讯

article2025/2/21 19:49:04/文章来源:https://blog.csdn.net/www3300300/article/details/138463116

编辑部发自 AIGC 峰会

　　量子位公众号 QbitAI

　　文生图、文生音频、文生视频、AI 搜索引擎……大模型在多模态的进程可谓是愈演愈烈。

　　而聚焦在国内，有这么一家公司在 AIGC 大热潮的前后，单是“首个”就占了四席：

发布中国首个开源文本大模型
国内首个对标 ChatGPT 的双千亿级大模型
中国首个 AI 搜索
国内首个在线提供服务的 MoE 大模型

　　不卖关子，这家公司正是昆仑万维，并且就在最近，它还解锁了“中国首个音乐 SOTA 模型——天工音乐大模型”。

　　那么昆仑万维在多模态大模型的道路中是如何演进的？为何能够如此精准的先迈出每一步？

　　在本次中国 AIGC 产业峰会上，昆仑万维董事长兼 CEO 方汉回答了一切。

　　为了完整体现方汉的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

　　中国 AIGC 产业峰会是由量子位主办的行业峰会，20 位产业代表与会讨论。线下参会观众近千人，线上直播观众 300 万，获得了主流媒体的广泛关注与报道。

　　话题要点

天工 3.0 发布，全面超越 MoE 大模型 Grok-1
天工 3.0 在多轮搜索、搜索“研究模式”、智能体方面能力提升
中国首个音乐 AIGC 的 SOTA 模型

　　以下为方汉演讲全文：

　　天工 3.0 正式发布

　　我今天的演讲主题是“天工多模态大模型的演进落地”。

　　大家知道昆仑万维是从 2022 年 12 月发布了中国首个开源文本大模型，在 2023 年 4 月 17 日「天工 1.0」发布，2023 年 8 月 23 日发布了国内首个 AI 搜索产品——天工 AI 搜索。

　　在今天，我们发布了「天工 3.0」，这是中国首个在音乐 AIGC 领域达到 SOTA 的模型，同时我们将开源 4000 亿参数全球最大规模的 MOE 大模型，并且开始启动公测。

　　首先，「天工 3.0」目前性能已经全面超越 3140 亿参数的 MOE 大模型 Grok-1，是全球第一，这两个大模型目前都是开源的。

　　我们可以看到在 MMbench 和 MMbench-CN 这两个测试集中，我们在性能指标上已经全面超越 GPT-4V，综合排名全球领先。

　　「天工 3.0」目前在模型技术支持能力上提升超过 20%，在数学、推理、代码、文创能力上提升超过 30%。

　　通过专项的 Agent 训练，可以应付复杂的需求能力，在内容创作能力上全面升级，目前是能搜能写能读能聊能说能画能听能唱，在多模态能力上非常全面。

　　下面可以看到，「天工 3.0」在多轮搜索与综合工具的调用能力上有了大幅提高。

　　例如，搜索“成都迪斯尼怎么去”大家知道，“成都迪斯尼”是个梗，我们能够准确识别出来“成都迪斯尼”是成都的一个小区，同时，大模型把“成都迪斯尼”的攻略生成出来之后，还会把它总结成一个攻略。

　　再比如，在问天气怎么样的时候，大模型会把上海的天气以卡片的形式展现给用户，最后生成相对应的图片。

　　视频地址：

　　https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

　　再来看一下「天工 3.0」在搜索能力上的“研究模式”，大家可能知道，学生在阅读文献的时候，需要总结大纲，再自己画脑图。

　　视频地址：

　　解密中国首个“音乐版Sora” | 中国AIGC产业峰会

　　在以前这类工作非常烦琐，现在我们可以自动对搜索内容进行总结、自动生成大纲、拷贝到 PowerPoint，就能自动生成 PPT，同时最后再自动生成脑图。这对所有的研究工作者非常有帮助。

　　下面我们看一下「天工 3.0」在智能体方面的进展，大家可以很方便地通过非代码的形式生成智能体，我们看现在生成的智能体在使用之后，可以生成一个关于特斯拉和小米 SU7 车型对比的表格，而且是多模态的生成，这个非常方便。

　　视频地址：

　　解密中国首个“音乐版Sora” | 中国AIGC产业峰会

　　首个音乐 AIGC 的 SOTA 模型

　　目前，昆仑万维以 AI 大模型为底座，已经拥有 AI 社交、AI 游戏、AI 搜索、AI 大模型、AI 音乐、AI 视频等六大业务矩阵。

　　我再给大家分享一下多模态大模型天工 SkyMusic，这是目前首个音乐 AIGC 的 SOTA 模型。给大家听一下案例，这是庞博（喜剧明星）利用天工 AI 音乐创作的一首歌曲。

　　视频地址：

　　https://mp.weixin.qq.com/s/9_tE4IvcwaeEKuNY8XthLQ

　　我们天工 SkyMusic 与 SONO V3 的版本对比，首先，在人声&BGM 音质、人声自然度、发音可懂度等领域都有明显地提升。

　　我们这个技术模型的架构是类似 Sora 的 DiT 架构，目前数据集已经将近 2000 万首音乐，这才能在音乐指标上可以超过 SUNO，达到目前的 SOTA，也就是技术指标第一。

　　我们独家优势在于根据示例音源生成音乐的能力，而不是根据标签来生成音乐。

　　根据示例音源生成音乐的能力可以让很多专业创作者用自己的一段小旋律生成完整的音乐，同时在人声合成方面支持单一语种方案输出能力，目前已经支撑粤语、四川话、北京话、上海话等多个方言。

　　最后，我们生成更具辨识度的自然人声，大家都知道如何区分每个歌手的人声，在合成上是有比较大的技术难度，我们目前基本上可以根据输入的语音达到更好的克隆。

　　目前天工 SkyMusic 音乐创作能力，首先，能够极大降低音乐创作门槛，人人皆可以歌明志。

　　大家可以看到，今天在我们公测的天工 SkyMusic 的功能下方，网友们创作的歌曲非常多，创作形式也非常多样。

　　之前制作一首歌的成本非常昂贵，因为首先要有音乐的基础能力，才能去作曲、才能编曲，还要有乐队帮助你去演奏合成，最后还得有专业的演唱能力，才能完成一首歌的制作。

　　通过天工 SkyMusic，一个人只要花几分钟时间可以完整创作出一首可以发布的歌曲，这样极大降低了音乐创作门槛。让每个人可以创作出自己的歌曲。

　　同时，极大降低了音乐创作成本，对于全体内容行业来说是一个福音。大家知道，在各行各业使用音乐的地方非常多。

　　之前都有着比较昂贵的授权费用，在今天可以让各行各业使用的所有通过 AI 生成，成本可以迅速从几万块钱降到几分钱。

　　最后，我们也证明了中国研发可以在垂直领域做到全球的 SOTA，这也是非常有意义的。大家知道，SOTA 这个词是“State of the art”，当前技术指标第一的意思。

　　OpenAI 为什么现在是全球估值最高的大模型企业？

　　因为在文本大模型以及视频生成大模型方面，它一直是全球的 SOTA。对于中国公司来说，能否在垂直领域取得 SOTA，也是你的企业能够获得技术红利的一个重要因素。

　　最后我跟大家分享一下，昆仑万维的使命与目标，是实现通用人工智能，让每个人更好地塑造和表达自我。

　　为什么我们把这个分成了两段？

　　实现通用人工智能就是对标 AGI，我们坚信通过文本大模型和多模态大模型不断演进，一定会实现通用人工智能；但与此同时，我们也可以通过 AIGC 能力的不断拓展，让每个人更好地塑造和表达自我。

　　我们可以看到从文本生成到图像生成，再到音乐生成以及视频生成，AIGC 技术的演进能够让全世界创作内容的成本极大降低，从而打破强势文化利用资源来达到的垄断地位，让每个少数族群都能够创作属于自己的内容，实现真正的文化平权。

　　这也是我们作为一家在全球几十个国家都拥有业务的全球互联网平台企业所希望看到的一个愿景。

来自: 网易科技

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/593017.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

基于OpenCv的图像全景拼接

基于OpenCv的图像全景拼接

⚠申明： 未经许可，禁止以任何形式转载，若要引用，请标注链接地址。全文共计6757字，阅读大概需要3分钟 🌈更多学习内容， 欢迎👏关注👀【文末】我的个人微信公众号&#xf…

阅读更多...

【数据结构（十）】Map和Set

【数据结构（十）】Map和Set

❣博主主页: 33的博客❣ ▶️文章专栏分类:数据结构◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你学更多数据结构知识目录 1.前言2.搜索树2.1 概念2.2实现二叉搜索树 2.4性能分析3.搜索3.Map3.1Map说明3.2 M…

阅读更多...

vue3使用el-autocomplete请求远程数据

vue3使用el-autocomplete请求远程数据

服务器端 RestController RequestMapping("/teacher") public class TeacherController {Resourceprivate TeacherService teacherService;GetMapping({"/v1/getTop10TeacherByName/","/v1/getTop10TeacherByName/{name}"})public ResultBean&l…

阅读更多...

论文笔记：（Security 22）关于“二进制函数相似性检测”的调研

论文笔记：（Security 22）关于“二进制函数相似性检测”的调研

个人博客链接注：部分内容参考自GPT生成的内容 [Security 22] 关于”二进制函数相似性检测“的调研（个人阅读笔记） 论文：《How Machine Learning Is Solving the Binary Function Similarity Problem》（Usenix Securi…

阅读更多...

C++多态特性详解

C++多态特性详解

目录概念： 定义及实现： 虚函数重写的两个例外： 1.协变： 2.析构函数的重写： final关键字： override关键字： 多态是如何实现的（底层）： 面试题&#xff1…

阅读更多...

图像识别及分类

图像识别及分类

⚠申明： 未经许可，禁止以任何形式转载，若要引用，请标注链接地址。全文共计3077字，阅读大概需要3分钟 🌈更多学习内容， 欢迎👏关注👀【文末】我的个人微信公众号&#xf…

阅读更多...

【网络编程下】五种网络IO模型

【网络编程下】五种网络IO模型

目录前言一.I/O基本概念 1.同步和异步 2.阻塞和非阻塞二.五种网络I/O模型 1.阻塞I/O模型 2.非阻塞式I/O模型编辑 3.多路复用 4.信号驱动式I/O模型 5. 异步I/O模型三.五种I/O模型比较编辑六.I/O代码示例 1. 阻塞IO 2.非阻塞I/O 3.多路复用 (1)select …

阅读更多...

Rust web简单实战

Rust web简单实战

一、使用async搭建简单的web服务 1、修改cargo.toml文件添加依赖 [dependencies] futures "0.3" tokio { version "1", features ["full"] } [dependencies.async-std] version "1.6" features ["attributes"]2、搭…

阅读更多...

【Leetcode每日一题】综合练习 - 全排列 II（难度⭐⭐）（71）

【Leetcode每日一题】综合练习 - 全排列 II（难度⭐⭐）（71）

1. 题目解析题目链接：47. 全排列 II 这个问题的理解其实相当简单，只需看一下示例，基本就能明白其含义了。 2.算法原理算法思路梳理为了生成给定数组nums的全排列，同时避免由于重复元素导致的重复排列，我们可以遵…

阅读更多...

刷代码随想录有感（56）：二叉搜索树的最小绝对差

刷代码随想录有感（56）：二叉搜索树的最小绝对差

题干： 代码:中序遍历成有序数组逐一比较相邻两个数之间的差值，注意这里是取最小值所以定义的初始值应该是非常大的INT_MAX！！！ class Solution { public:void traversal(TreeNode* root, vector<int>&a){if(…

阅读更多...

OpenCV 为轮廓创建边界框和圆(62)

OpenCV 为轮廓创建边界框和圆(62)

返回:OpenCV系列文章目录（持续更新中......） 上一篇:OpenCV检测凸包(61) 下一篇 :OpenCV如何为等值线创建边界旋转框和椭圆(62) 目标在本教程中，您将学习如何： 使用 OpenCV 函数 cv::boundingRect使用 OpenCV 函数 cv::mi…

阅读更多...

c++多线程2小时速成

c++多线程2小时速成

简介 c多线程基础需要掌握这三个标准库的使用：std::thread,std::mutex, andstd::async。 1. Hello, world #include <iostream> #include <thread>void hello() { std::cout << "Hello Concurrent World!\n"; }int main() {std::th…

阅读更多...

轻松应对数据恢复挑战：雷神笔记本，不同情况不同策略

轻松应对数据恢复挑战：雷神笔记本，不同情况不同策略

在数字化时代，数据无疑是我们生活中不可或缺的一部分。无论是重要的工作文件、珍贵的家庭照片，还是回忆满满的视频，一旦丢失，都可能给我们的生活带来诸多不便。雷神笔记本作为市场上备受欢迎的电脑品牌，用户在使用过程…

阅读更多...

ubuntu使用Remmina远程连接Windows桌面

ubuntu使用Remmina远程连接Windows桌面

概况目的： 远程连接公司电脑写一点代码之前的方案： 安装Win10虚拟机，虚拟机里连接 VPN， 然后用 mstsc 命令连接。新的方案：连接VPN后， 开启Remmina直接连接远程 Windows 桌面新方案优点&#xff1a…

阅读更多...

分布式锁之-mysql

分布式锁之-mysql

使用mysql实现分布式锁的方式这里演示两种： 1:基于 MySQL 实现的乐观锁 2:基于 MySQL 实现的悲观锁数据库脚本 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ---------------------------- -- Table structure for product_stock -- -----------------------…

阅读更多...

【Python】机器学习之Sklearn基础教程大纲

【Python】机器学习之Sklearn基础教程大纲

机器学习之Sklearn基础教程大纲 1. 引言机器学习简介Scikit-learn（Sklearn）库介绍安装和配置Sklearn 2. 数据预处理 2.1 数据加载与查看 - 加载CSV、Excel等格式的数据- 查看数据的基本信息（如形状、数据类型等）2.2 数据清洗…

阅读更多...

Vue 组件间的数据绑定

Vue 组件间的数据绑定

在Vue组件中，v-model指令可以用来实现双向数据绑定。它用于将组件的属性和父组件中的数据进行双向绑定，使得当属性的值改变时，父组件中的数据也会相应地改变，并且当父组件中的数据改变时，属性的值也会相应地改变。目…

阅读更多...

【软考高项】三十一、成本管理4个过程

【软考高项】三十一、成本管理4个过程

一、规划成本管理 1、定义、作用定义：确定如何估算、预算、管理、监督和控制项目成本的过程作用：在整个项目期间为如何管理项目成本提供指南和方向应该在项目规划阶段的早期就对成本管理工作进行规划，建立各成本管理过程的基本框架&…

阅读更多...

使用docker-compose编排lnmp(dockerfile) 完成Wordpress

使用docker-compose编排lnmp(dockerfile) 完成Wordpress

实验环境： 在已有docker环境和nginx镜像的基础上进行编排。 1、准备mysql容器目录及文件 2、dockerfile文件内容 3、my.cnf文件内容 4、准备php容器目录及文件 5、dockerfile文件内容 6、准备其他文件 7、编写docker-compose.yml文件 8、Docker Compose环境的实现…

阅读更多...

Redisson 分布式锁和同步器

Redisson 分布式锁和同步器

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。 redisson 是基于redis的扩展库，使得redis除了应用于缓存以外，还能做队列…

阅读更多...

最新文章