迈向通用听觉人工智能!清华电子系、火山语音携手推出认知导向的听觉大语言模型SALMONN

日前,清华大学电子工程系与火山语音团队携手合作,推出认知导向的开源听觉大语言模型SALMONN (Speech Audio Language Music Open Neural Network)。

大语言模型 SALMONN LOGO

大语言模型 SALMONN LOGO

相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN对语音、音频事件、音乐等各类音频输入都具有感知和理解能力,相当于给大语言模型“加了个耳朵”,从而涌现出多语言和跨模态推理等高级能力。本文中涌现能力是指模型训练中没有学习过的跨模态能力。

具体来说,通过给Vicuna 13B大语言模型增加一个基于Whisper Encoder的通用音频编码器,并使用一个融合器对齐音频和文本模态,SALMONN模型就对音频模态具有了直接感知,不再是“缸中之脑”;与先使用API调用“ToolFormer”,将语音或非语音音频输入转为文字,再将文字输入大语言模型的API路线相比,SALMONN可以直接从物理世界获取知识,并对一些复杂的音频场景涌现出完整的理解能力。

此外与传统的语音识别、音频字幕生成等语音和音频处理任务相比,SALMONN利用了大语言模型从海量文本中学习得到的常识和认知能力,实现了一种认知导向的音频感知,大幅提高了模型的通用性和任务的丰富性;另外SALMONN 能够较为准确地听从使用者的文本指令,甚至语音指令。由于该模型只使用了基于文本指令的训练数据,因此听从语音指令也是一种跨模态的涌现能力。

图片

SALMONN 结构示意图

总体而言,目前SALMONN能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等重要的语音和音频任务,同时又涌现出多种在模型训练中没有专门学习过的多语言和跨模态能力,涵盖非英语语音识别、英语到(中文以外)其他语言的语音翻译、对语音内容的摘要和关键词提取、基于音频的故事生成、音频问答、语音和音频联合推理等任务。

对此,研究团队将上述任务依据难易程度分为三类,并一一提出了Demo进行展现,它们分别是:

  • 模型训练中学习过的任务

  • 模型训练中没有学习过,但大语言模型能够基于文本输入完成的任务

  • 模型训练中没有学习过,需要直接感知音视频的多模态大模型才能完成的任务

第一类:模型训练中学习过的任务

语音识别(Automatic Speech Recognition)

音频样例:

asricon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/asr.wav

上述语音中的英文语句:But I was also stumbling because I couldn’t look away from these things. (中文翻译为:我也曾跌跌撞撞,因为我无法将目光从这些东西上移开。)

图片

SALMONN运行截图(语音输入)

音频字幕生成(Audio Captioning)

音频样例:

audiocaptionicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/audiocaption.wav

图片

SALMONN运行截图(音频输入)

SALMONN输出的中文翻译为:音效包括枪声、爆炸声和喊叫声。音效质量高,混音效果好,营造出逼真、身临其境的音频体验。对话清晰易懂,在激烈的战斗场面中,角色们相互呼喊和交流。音乐也有,但没有音效那么突出,增加了场景的整体氛围。

音乐描述(Music Descrption)

音频样例:

musicicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/music.wav

图片

SALMONN运行截图(音乐输入)

SALMONN输出的中文翻译为:音乐是轻快欢快的曲调,节奏稳定。它是在钢琴上演奏的,旋律简单、朗朗上口。

情感识别(Emotion Recognition)

音频样例:

emotionicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/emotion.wav

图片

SALMONN运行截图(情感识别中的语音输入)

SALMONN输出的中文翻译为:说话人的情绪是失望的。

第二类:模型训练中没有学习过但大语言模型能够基于文本输入完成的任务

英语到其他语言的语音翻译,是一种多语言的涌现能力

音频样例:

asr_en2deicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/asr_en2de.wav

英语语音输入

语音中的英文语句:But I was also stumbling because I couldn’t look away from these things.

图片

SALMONN运行截图

SALMONN的德语输出:Ich stolperte auch, weil ich nicht aus den Dingen heraussehen konnte. (中文翻译为:我也因为看不清东西而跌跌撞撞。)

语音关键词提取,是一种涌现能力

音频样例:

keywordsicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/keywords.wav

语音输入

语音中的英文语句:He tells us that at this festive season of the year with Christmas and roast beef looming before us similes drawn from eating and its results occur most readily to the mind. (中文翻译为:他告诉我们,在这个圣诞节和烤牛肉迫在眉睫的节日里,人们脑海中最容易浮现出从饮食及其结果中得出的比喻)

图片

SALMONN运行截图

SALMONN输出的关键词:festive season(佳节)、Christmas(圣诞节)、roast beef(烤牛肉)

语音问答是一种涌现能力

音频样例:

spoken_queryicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/spoken_query.wav

语音中的英文语句:How a rocket engine works? (中文翻译为:火箭发动机是如何工作的?)

图片

SALMONN运行截图

SALMONN 输出的中文翻译为:火箭发动机的工作原理是在燃烧室中燃烧氢气或煤油等燃料,产生的热气通过喷嘴喷出。喷嘴的形状可以将气体引向特定的方向,产生推力推动火箭前进。

燃料通常与液氧等氧化剂混合,发生化学反应,以热量和压力的形式释放出大量能量。燃烧过程产生的热量使燃料汽化,产生的压力将气体推出发动机。

燃烧过程中产生的热气随后被导入喷嘴,喷嘴的形状类似锥体。喷嘴的作用是使气体膨胀,从而提高气体的速度,形成高速气体射流,产生推力。

火箭发动机产生的推力推动火箭前进,使其摆脱地球引力,在太空中飞行。火箭发动机的具体设计,包括使用的燃料、喷嘴的形状和发动机的大小,将决定产生推力的大小和火箭飞行的具体特点。

第三类:模型训练中没有学习过但需要直接感知音视频的多模态大模型才能完成的任务

基于音频的故事生成

音频样例:

audio_story_tellingicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/audio_story_telling.wav

带有语音的音频场景输入

音频描述:Rustling occurs, ducks quack and water splashes, followed by an adult female and adult male speaking and duck calls being blown. (中文翻译为:发出沙沙声,鸭子嘎嘎叫,水花四溅,随后成年男性和成年女性说话,鸭子发出叫声)

图片

SALMONN运行截图

SALMONN输出的中文翻译为:阳光明媚,鸟语花香,一群孩子在树林里散步。他们正在寻宝,决心尽可能多地找到清单上的物品。

走着走着,他们听到附近的池塘里传来一阵奇怪的声音。听起来像是鸭子在嘎嘎叫,但声音更大,也更持久。孩子们急忙跑到池塘边去调查。

当他们走近池塘时,看到了他们从未见过的东西。一只巨大的鸭子正坐在池塘边,大声地叫着。这只鸭子有一辆汽车那么大,叫声响亮,几英里外都能听到。

孩子们看到这只巨型鸭子都惊呆了。他们以前从未见过这样的东西。他们慢慢靠近鸭子,尽量不惊动它。

当他们走近时,鸭子转过身来对他们说话。"你们好,孩子们,“用低沉洪亮的声音说。"什么风把你们吹到我的池塘来了?” .......

语音指令的音频推理

带语音指令的音频输入

音频样例:

spoken_audio_queryicon-default.png?t=N6B9https://share-shalong.oss-cn-hangzhou.aliyuncs.com/%E5%AD%97%E8%8A%82%E6%96%87%E7%AB%A0/spoken_audio_query.wav

带语音指令的音频输入

语音中的英文语句:Can you guess where I am right now?(中文翻译为:你能猜出我现在在哪里吗?)

图片

SALMONN运行截图

SALMONN输出的中文翻译:当然,我可以猜猜你现在在哪里。根据背景的枪声,听起来你可能身处战区或危险地区。枪声符合自动武器的声音,如 AK-47 或 M-16。此外,背景中的爆炸声表明,您可能正身处使用炸弹或其他爆炸装置的地点。

在没有更多信息的情况下,很难说得更具体,但根据枪声和爆炸声,你有可能身处战区或战乱国家。也有可能是在犯罪活动或暴力活动猖獗的地方。

希望以上内容对您有所帮助,如果您还有其他问题或需要我提供其他帮助,请告诉我。

整体来看,SALMONN 在三类不同难度的任务上都有较好表现,并涌现出惊艳的音频理解与推理能力,成功打通了音频与文本模态,初步展现出一定的通用听觉人工智能。研究团队将在近期开源 SALMONN  v1.0 模型及相关代码,并将在未来持续更新 SALMONN,使大模型能够更好地感知多模态物理世界,为建设开源的通用人工智能添砖加瓦。欢迎大家持续关注!

另附:

 Github 仓库:https://github.com/bytedance/SALMONN/

 Demo 链接:https://bytedance.github.io/SALMONN/

清华大学电子工程系多媒体信号与智能信息处理实验室在医工交叉和语音处理领域有丰富的研究积淀。实验室的张超研究组成立于2022年,专注于多模态语音语言处理和计算认知神经科学研究。

火山语音团队,面向字节跳动内部各业务线,提供优质的语音AI技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合,以实现更大的用户价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/80366.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ReentrantLock源码解析

定义 可重入锁,对于同一个线程可以重复获得此锁。分为FailLock和NonfairLock。 加锁就是将exclusiveOwnerThread设置为当前线程,且将status加一,解锁就status-1,且exclusiveOwnerThread设置为null。 公平锁:根据先来后…

【Hibench 】完成 HDP-Spark 性能测试

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…

首发 | FOSS分布式全闪对象存储系统白皮书

一、 产品概述 1. 当前存储的挑战 随着云计算、物联网、5G、大数据、人工智能等新技术的飞速发展,数据呈现爆发式增长,预计到2025年中国数据量将增长到48.6ZB,超过80%为非结构化数据。 同时,数字经济正在成为我国经济发展的新…

Mathematica(42)-计算N个数值的和

比如,我们要用Mathematica求得到下面的式子: 这就需要用到一个函数:Sum 具体地,Sum函数的使用形式如下: 因此,按照公式就可以得到下面的结果: 如果,我们想要将求和号也加进去&#…

广州华锐互动:3D数字孪生开发编辑器助力企业高效开发数字孪生应用

3D数字孪生开发编辑器是一种新兴的技术,它可以帮助企业更好地管理和维护其物联网设备。这些工具可以帮助企业实现对设备的实时监控、故障排除和优化,从而提高生产效率和降低成本。 数字孪生系统是一种将物理世界与数字世界相结合的技术,它可以…

未来公文的智能化进程

随着技术的飞速发展,公文——这个有着悠久历史的官方沟通方式,也正逐步走向智能化的未来。自动化、人工智能、区块链...这些现代科技正重塑我们的公文制度,让其变得更加高效、安全和智慧。 1.语义理解与自动生成 通过深度学习和NLP&#xff…

04_15页表缓存(TLB)和巨型页

前言 linux里面每个物理内存(RAM)页的一般大小都是4kb(32位就是4kb),为了使管理虚拟地址数变少 加快从虚拟地址到物理地址的映射 建议配值并使用HugePage巨型页特性 cpu和mmu和页表缓存(TLB)和cache和ram的关系 CPU看到的都是虚拟地址,需要经过MMU的转化&#xf…

vue3 injection报错 injection“xxx“ not found.

在封装CheckboxGroup组件的的时候&#xff0c;需要通过provide&#xff0c;代码如下&#xff1a; //父组件 <template><div class"envCheckBoxGroup"><slot></slot></div> </template> <script setup> import { provide …

使用SSH隧道将Ubuntu云服务器Jupyter Notebook端口映射到本地

本文主要实现了在Ubuntu云服务器后台运行Jupyter Notebook&#xff0c;并使用SSH隧道将服务器端口映射到本地 1. 生成配置文件 运行以下命令生成Jupyter Notebook的配置文件&#xff1a; jupyter notebook --generate-config这将在用户主目录下生成一个名为.jupyter的文件夹&…

大数据Flink(六十四):Flink运行时架构介绍

文章目录 Flink运行时架构介绍 一、系统架构 二、​​​​​​​​​​​​​​整体构成 三、作业管理器&#xff08;JobManager&#xff09; 四、任务管理器&#xff08;TaskManager&#xff09; Flink运行时架构介绍 我们已经对 Flink 的主要特性和部署提交有了基本的了…

AI绘画 | 一文学会Midjourney绘画,创作自己的AI作品(快速入门+参数介绍)

一、生成第一个AI图片 首先&#xff0c;生成将中文描述词翻译成英文 然后在输入端输入&#xff1a;/imagine prompt:Bravely running boy in Q version, cute head portrait 最后&#xff0c;稍等一会即可输出效果 说明&#xff1a; 下面的U1、U2、U3、U4代表的第一张、第二张…

HCIP第五节------------------------------------------ospf

一、OSPF基础 1、动态路由分类 2、距离矢量协议 运行距离矢量路由协议的路由器周期性地泛洪自己的路由表。通过路由的交互&#xff0c;每台路由器都从相邻的路由器学习到路由&#xff0c;并且加载进自己的路由表中&#xff0c;然后再通告给其他相邻路由器。 对于网络中的所有…

模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

模型预测 一、导入关键包二、如何载入、分析和保存文件三、修改缺失值3.1 众数3.2 平均值3.3 中位数3.4 0填充 四、修改异常值4.1 删除4.2 替换 五、数据绘图分析5.1 饼状图5.1.1 绘制某一特征的数值情况&#xff08;二分类&#xff09; 5.2 柱状图5.2.1 单特征与目标特征之间的…

《Java极简设计模式》第03章:工厂方法模式(FactoryMethod)

作者&#xff1a;冰河 星球&#xff1a;http://m6z.cn/6aeFbs 博客&#xff1a;https://binghe.gitcode.host 文章汇总&#xff1a;https://binghe.gitcode.host/md/all/all.html 源码地址&#xff1a;https://github.com/binghe001/java-simple-design-patterns/tree/master/j…

【路由协议】使用按需路由协议和数据包注入的即时网络模拟传递率(PDR)、总消耗能量和节点消耗能量以及延迟研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

opencv直方图与模板匹配

import cv2 #opencv读取的格式是BGR import numpy as np import matplotlib.pyplot as plt#Matplotlib是RGB %matplotlib inline def cv_show(img,name):cv2.imshow(name,img)cv2.waitKey()cv2.destroyAllWindows() 直方图 cv2.calcHist(images,channels,mask,histSize,ran…

『C语言』数据在内存中的存储规则

前言 小羊近期已经将C语言初阶学习内容与铁汁们分享完成&#xff0c;接下来小羊会继续追更C语言进阶相关知识&#xff0c;小伙伴们坐好板凳&#xff0c;拿起笔开始上课啦~ 一、数据类型的介绍 我们目前已经学了基本的内置类型&#xff1a; char //字符数据类型 short …

如何使用Redis实现附近商家查询

导读 在日常生活中&#xff0c;我们经常能看见查询附近商家的功能。 常见的场景有&#xff0c;比如你在点外卖的时候&#xff0c;就可能需要按照距离查询附近几百米或者几公里的商家。 本文将介绍如何使用Redis实现按照距离查询附近商户的功能&#xff0c;并以SpringBoot项目…

面试之快速学习STL- vector

1. vector底层实现机制刨析&#xff1a; 简述&#xff1a;使用三个迭代器表示的&#xff1a; &#xfffc; 这也就解释了&#xff0c;为什么 vector 容器在进行扩容后&#xff0c;与其相关的指针、引用以及迭代器可能会失效的原因。 insert 整体向后移 erase 整体向前移…

科技云报道:算力之战,英伟达再度释放AI“炸弹”

科技云报道原创。 近日&#xff0c;在计算机图形学顶会SIGGRAPH 2023现场&#xff0c;英伟达再度释放深夜“炸弹”&#xff0c;大模型专用芯片迎来升级版本。 英伟达在会上发布了新一代GH200 Grace Hopper平台&#xff0c;该平台依托于搭载全球首款搭载HBM3e处理器的新型Grac…