回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾:

18日线上直播回顾

18日上午9:30,AISHELL & SpeechHome CEO卜辉宣布研讨会开始,并简要介绍本次研讨会的筹备情况以及报告内容。随后,CCF语音对话与听觉专委会副主任、清华大学教授,国家工业信息安全发展研究中心人工智能所副所长刘永东对本次大会进行开幕致辞。

  开幕致辞

接下来是语音前沿技术音频生成两个主题的内容回顾。

  语音前沿技术

上午的语音前沿技术主题主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是谢磊、万玉龙、李明

谢磊分享的主题是《西工大ASLP实验室语音生成模型新进展》。报告分享了西工大音频语音与语言处理实验室在语音生成方面的进展,包括拟人化语音合成,基于语音因素解耦的表现力语音合成,基于自然语言的风格迁移、音色生成和语音转换,高表现力与实时语音转换、以及Vec Tok Speech多任务语音大模型技术。

万玉龙分享的主题是《交互式AI中语音技术实践与探索》。本次报告主要介绍了3点内容:1、亿级终端智能助理所面临的语音技术挑战及解决思路;2、音频类生成式AI在智能助理产品的创新实践;3、业务视角下,交互式A对语音技术的期许与展望。

李明分享的主题是《多通道、多人及非基于声纹编码向量的特定人语音抽取》。首先介绍了不直接使用声纹编码向量作为目标人先验信息的特定人语音抽取模型设计,其次在多人同步抽取及多通道语音输入这两个方面介绍团队最近的一些研究成果。

 音频生成

下午的音频生成主题由西交利物浦大学助理教授李圣辰担任主持,分享嘉宾分别是武执政、吴志勇、王文武、雪巍、卢恒

武执政分享的主题是《Amphion: An Open-Source Audio, Music and Speech Generation Toolkit》。This talk will present an open-source audio, audio and speech generation toolkit, namelyAmphion. The Amphion toolkit is design for education and reproducible research purpose. This talkfirst presents the state of the art for generation tasks, and discuss the design goal, implementation andcomparison with existing toolkits.

吴志勇分享的主题是《面向表现力语音合成的多尺度风格建模与生成》。报告介绍了表现力语音合成在对说话风格、情感、语调等进行精细化建模,以提高合成语音的自然度和拟人化表现能力。它在有声读物、AI主播、人机对话交互等领域有广阔的应用前景。然而,它也面临一系列挑战和难点。针对如何有效提取和表示多尺度的风格特征,提出了一种面向表现力语音合成的多尺度风格建模方法,使用多尺度参考编码器提取目标语音的全局和局部风格特征,提高语音合成的可控性、表现力和灵活性;针对如何在不损失自然度和可懂度的前提下实现风格控制和转换,提出了一种基于分块的多尺度跨说话人风格迁移方法;针对如何生成富有表现力和多样性的语音韵律等,提出了一种基于去噪扩散概率模型的韵律预测器。实验结果验证了所提方法在表现力语音合成方面的有效性和优势。

王文武分享的主题是《Text to Audio Generation》。Text-to-audio generation aims to produce an audio clip based on a text prompt which is a languagedescription of the audio content to be generated. This can be used as sound synthesis tools for film makinggame design, virtual reality/metaverse, digital media, and digital assistants for text understanding by thevisually impaired. To achieve cross modal text to audio generation, it is essential to comprehend the audioevents and scenes within an audio clip, as well as interpret the textual information presented in naturaanquage. ln addition, learning the mapping and alianment of these two streams of information is cruciaExciting developments have recently emerged in the field of automated audio-text cross modal generation. lnthis talk, we will give an introduction of this field, including problem description, potential applicationsdatasets, open challenges, recent technical progresses, and possible future research directions. We will startwith the conditional audio generation method which we published in MLSP 2021 and used as the baselinesystem in DCASE 2023. We then move on to the discussion of several algorithms that we have developedrecently, including AudioLDM,AudioLDM2, Re-AudioLDM,and AudioSep, which are getting increasinglypopular in the signal processing, machine learning, and audio engineering communities.

雪巍分享的主题是《高速高质量零资源歌声合成》。主要介绍了歌声合成面临标注数据极度缺失的问题,精标成本较高,且音色有限;宽音域强表现力的要求对合成质量提出更高标准。介绍了CoMoSpeech和ZSinger,使得基于扩散模型的歌声合成方法真正可以实时部署于工业级应用,并无需标注数据即可对任意人音色进行建模及歌词/旋律控制。

卢恒分享的主题是《语音AIGC技术进展--音频技术在喜马拉雅的研发和落地应用》。主要介绍喜马拉雅语音AIGC技术,包括文本分析,语音生成技术以及风格转换的大模型的研究以及落地。同时介绍我们在语音识别、音效以及全景声方面的一些工作。

19日线下参会回顾

19日以线下会议的形式举办,众多语音领域大神云集,各路语音技术爱好者慕名而来。现场共有2个会场,分为3个主题,分别是“音频与大模型”“数据与大模型”“语音开源技术”,大家共同探讨了相关的技术问题。我们还穿插了丰富的抽奖茶歇环节,大家在参会的同时也可以放松休息。

以下是精彩的会议报告。 

  音频与大模型

上午的音频与大模型主题由北京邮电大学副教授/博导李蓝天担任主持,分享嘉宾分别是欧智坚、钱彦旻、张王优、李晨达、何磊、易江燕、栾剑、张超。 

欧智坚分享的主题是《语音大模型的若干思考与猜测》。报告结合ChatGPT的技术发展历程以及语音本身特点,汇报了对语音大模型研究的几个思考,对“未来语音大模型是怎么样的?”给出我们的猜测,包括:1、是否能实现有原则的无监督学习?2、语音识别大模型如何与语言模型有效结合?3、语音识别与语音合成,是否能有效互助?4、多语言语音识别系统中,是否需要IPA知识的运用?报告也将分享我们的若干进展。

钱彦旻分享的主题是《Self-Supervised Learning for High-Performance Robust Speaker Verification》Automatic speaker verification task has made great achievements using deep learning approacheswith the large-scale manually annotated dataset. However, it's very difficult and expensive to collect alarge amount of well-labeled data for system building. Recently, self-supervised speaker verificationhas attracted a lot of interest by the reason of its no-dependency on labeled data. This talk will brieflyintroduce an advanced self-supervised learning framework which can construct a robust speakerverification system with high performance without using any labeled data. With our proposedmethods, the gap between unsupervised and supervised representation learning is dramaticallyreduced for speaker verification, and an approaching performance of the fully supervised system isobtained with our self-supervised learning method on speaker verification. 

张王优李晨达在线上为大家分享的主题是《ESPnet 2023 开发进展》。报告介绍了ESPnet开源工具在语音增强方面的进展。ESPnet-SE 是2020年6月开始筹备的ESPnet子项目,目的是为ESPnet 提供丰富的前端语音处理功能,包括降噪、去混响和语音分离等。在两年多的时间里ESPnet-SE 累计添加了对 24 种语音增强模型(12 种单通道模型 +12 种多通道模型)的支持并配有 22个覆盖从数据准备到模型训练及评估等全流程的 recipes,其中部分 recipe 在 Hugging Face 上提供了相应的已训练模型。ESPnet-SE也提供了对其他语音前端开源工具的兼容,如允许在ESPnet中直接加载并训练来自Asteroid 工具的模型。除此之外,ESPnet-SE 提供了将前端模型和其他下游语音任务(语音识别、语音翻译、口语理解等)进行结合的接口和示例,使得我们能够很容易实现前端模型和不同后端任务的联合训练或评估。本次报告重点介绍了ESPnet-SE工具的特色功能以及使用方法,并对后续开发计划进行简单梳理。

 

嘉宾:欧智坚、何磊、钱彦旻、易江燕、栾剑、张超 

圆桌会由李蓝天和卜辉主持,议围绕着“各位专家对大模型 GPT4 Turbo是如何理解的,有哪些值得学习和不足的地方”,“大模型更多是在文本交互、知识交流领域为主,音频大模型能否成为主流模型或者高价值模型”,“未来音频大模型的发展趋势是什么?如何把握”,“对在音频这个领域或者将要进如这个领域的学生,在选题方向有哪些建议”等问题展开激烈的讨论,欧智坚、何磊、钱彦旻、易江燕、栾剑、张超依次做出来精彩的解答。

  数据与大模型

上午的数据与大模型的主题由AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是樊威、张超、邵志明

樊威分享的主题是《大模型数据资源面临挑战和发展路径》。报告主要分为3点:1、大模型数据发展现状及挑战;2、大模型数据治理总体思路;3、大模型数据治理落地思考。

张超分享的主题是《认知导向的视听觉大语言模型》报告介绍了ChatGPT作为一种大语言模型(Large Language Model,LLM),以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关ChatGPT的最新更新已支持图片和语音指令输入。可以把LLM类比为具有强语言认知能力的“大脑”,缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知,尤其是音视频感知,既使LLM真正“能听会看”,也能提高已有音视频任务的准确性。

邵志明分享的主题是《AI算法赋能海天瑞声高质量数据生产》。本报告首先介绍海天瑞声语音数据生产环节使用的算法技术成果,以及针对平台预标注能力从多语种语音识别、自动切音、多通道对齐、重复发音人检测等技术的研究成果。其次,介绍海天瑞声在大模型数据生产方面的Know-how。 

  语音开源技术

下午的语音开源技术主题由清华大学副研究员王东和AISHELL & SpeechHome CEO卜辉担任主持,分享嘉宾分别是Daniel Povey、匡方军、卜辉、张彬彬、张仕良、康魏

Daniel Povey分享的主题是《Zipformer: an improved Encoder for ASR》。will talk about our alternative to the Conformer, the "Zipformer", which gives improved accuracy atlower cost. lt includes downsampling and upsampling, as in UNet, and many architectural changes; wealso introduce a modified optimizer called ScaledAdam.

匡方军分享的主题是《 Sherpa: 新一代 Kaldi 部署框架》。报告主要介绍了如何使用新一代Kaldi部署框架 Sherpa 在 Linux/macOS/Windows/Android/i0S 等不同环境中部署语音识别和语音合成模型。比如来自 icefall,Whisper,FunASR,WeNet 和 NeMo 等框架的语音识别模型,来自VITS-fast-fine-tuning,piper 和 coqui-ai 等基于 VITS 的语音合成模型。

卜辉分享的主题是《 AISHELL-Turbo Datasets for multimodal AI models》。报告介绍了AISHELL的语音数据集赋能了智能语音技术在家居、车载、机器人、会议等多场景的应用落地。开源项目也覆盖语音识别、声纹识别、语音合成、场景语音交互技术方案。在针对语音识别(ASR)模型的性能评测方面,构建了高质量语音评测数据集,评测项目开放了ASR模型的SOTA内容,包括Benchmark和Leaderboard,对智能语音产业及用户应用体验的提升都起到了促进作用。随着ChatGPT等大模型的出现,人工智能(A)多模态大模型可以同时处理多种模态数据,如同时处理图像、文本、语音等。大模型通常基于深度学习技术,利用大量的数据来训练,以实现多模态数据的跨模态理解和生成。当前的多模态大模型性能在多个评测数据集上的成绩已经超越人类对知识的掌控,在未来如何对大模型进行知识迭代、大模型的场景化落地等问题,AISHELL在今年启动了AISHELL-Turbo数据集计划。报告内容会对AISHELL-Turbo的数据集规划和目前的成果做介绍。

张彬彬分享的主题是《WeNet 开源社区最新进展》。报告主要介绍了WeNet 开源社区最新进展:1、数据集和预训练模型更新;2、wespeaker 更新;3、wenet 最新算法和方案设计。

张仕良分享的主题是《ModelScope语音开源现状和语音语义多模态大模型研究进展介绍》。报告首先总体介绍魔搭社区语音模态的开源现状,包含语音识别、语音合成、说话人识别等技术方向。其次就语音识别方向,会进一步介绍FunASR开源工具包,以及解析语音识别服务一键部署能力背后的技术。最后会介绍通义实验室关于语音语义多模态大模型(LauraGPT、Qianwen-AL)的最新研究和开源进展。

嘉宾:张仕良、张彬彬、康魏

圆桌会由卜辉主持,议围绕着“如何参与开源语音技术社区?”,“开源语音技术该如何规划?”等问题展开激烈的讨论,张仕良、张彬彬、康魏老师依次做出来精彩的解答。

最后主办方对大会做总结和鸣谢。至此,第三届SpeechHome语音技术研讨会圆满结束,期待与大家再次相见。各平台会议直播观看人数累计16000+,线下参会150人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/259581.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP…

node.js mongoose aggregate

目录 官方文档 简述 Aggregate的原型方法 aggregate进行操作 官方文档 Mongoose v8.0.3: Aggregate 简述 在 Mongoose 中,Aggregate 是用于执行 MongoDB 聚合操作的类。MongoDB 聚合操作是一种强大的数据处理工具,可以用于对集合中的文档进行变换和…

0基础学java-day21(网络编程)

一、网络的相关概念 1 网络通信 2 网络 3 ip 地址 4.ipv4 地址分类 5.域名 6 网络通信协议 7.网络通信协议 8.TCP 和 UDP 二、InetAddress 类 &Socket 1 相关方法 package com.hspedu.api;import java.net.InetAddress; import java.net.UnknownHostException;/*** …

系列二十八、如何在Oracle官网下载JDK的api文档

一、官网下载JDK的api文档 1.1、官网地址 https://www.oracle.com/java/technologies/javase-jdk21-doc-downloads.html 1.2、我分享的api.chm 链接:https://pan.baidu.com/s/1Bf55Fz-eMTErmQDtZZcewQ?pwdyyds 提取码:yyds 1.3、参考 https://ww…

STM32Fxx HAL库开发UART中断回调函数理解-中断回调函数流程-自己理解的

STM32HAL库中断服务函数调用过程有2种 第1种:可以直接在中断源对应的中断服务函数中编写我们想要的功能 具体是在void USART1_IRQHandler(void)函数写要执行的任务 正点原子是重新宏定义函数名,写法如下: 暂时忽略,…

代码随想录算法训练营第二十二天 | 搜索树添加、删除元素

目录 力扣题目 力扣题目记录 235. 二叉搜索树的最近公共祖先 总结 701.二叉搜索树中的插入操作 总结 450.删除二叉搜索树中的节点 普通二叉树的删除方式 总结 总结 力扣题目 用时:2h 1、235. 二叉搜索树的最近公共祖先 2、701.二叉搜索树中的插入操作 …

黑马头条--day06文章上下架--kafka消息队列

目录 一.自媒体文章上下架 二.kafka概述 1.消息中间件对比 2.kafka介绍 3.kafka安装配置 三.kafaka入门 (1)创建kafka-demo项目,导入依赖 (2)生产者发送消息 (3)消费者接收消息 总结…

【精简】mysql创建自定义函数 sql写法举例

一,举例的sql是查询 某个时间点某个币种的汇率 create function get_rate(idate date,CURRENCY varchar(32)) returns decimal(21,6) begin declare res decimal(21,6) default 1;selec rate into resfromt_exchangerate tewhere ratedate idateand CURRENCYID C…

听GPT 讲Rust源代码--src/tools(15)

File: rust/src/tools/rust-analyzer/crates/mbe/src/token_map.rs 在Rust源代码中,rust/src/tools/rust-analyzer/crates/mbe/src/token_map.rs文件的作用是实现了一个能够将输入的文本映射为标记的结构。具体来说,它定义和实现了几个结构体&#xff08…

第一节TypeScript 安装

一、TypeScript 安装 前提条件:我们环境中已经配置npm环境。 1、使用npm安装TypeScript 首先查看你本地是否已安装npm。打开cmd -> 输入“npm -v” 回车,查看输出的npm版本 上述输出代码你本地环境已经安装了npm工具,可以使用以下命令来…

【新版HI3559AV100开发注意事项(二)】

#新版HI3559AV100开发注意事项(二) 十一、请问海思HI3559AV100 SPC030资料里面的HI3559ADMEB_VER_C_PCB.pcb是用什么软件打开啊? 答:PADS VX 2.2 Altium designer 十二、hi3559级联问题请教 在SDK的文档中只看到了两块Hi3559板…

远程多窗口和Screen用法

Termius 远程链接服务器终端时,经常遇到需要开多个窗口,另外还可能涉及到正在运行的程序一旦和服务器链接断开,那么程序也就停止执行了。对于单单只需要多个窗口的问题,建议下载一个Termius这样软件,比多次打开…

23 聪明的设计

仅用加法的实在是想不出来。。 #include <iostream> using namespace::std; using std::cout; using std::cin; int ljq(int n) {if(n < 1){return n;}else{return (nljq(n-1));} }int main() {int n;cin >> n;std::cout << ljq(n);return 0; }

Unity的UI界面——Text/Image

编辑UI界面时&#xff0c;要先切换到2d界面 &#xff08;3d项目的话&#xff09; 1.Text控件 Text控件的相关属性&#xff1a; Character:&#xff08;字符&#xff09; Font&#xff1a;字体 Font Style&#xff1a;字体样式 Font Size&#xff1a;字体大小 Line Spac…

锐捷配置完全stub区域

一、实验拓扑 二、实验目的 在运行OSPF协议的网络中&#xff0c;配置STU区域可以减少路由器的路由条目&#xff0c;减小路由器的压力&#xff0c;有效提高路由器的性能。 三、实验配置 第一步&#xff1a;全局配置OSPF R1 ruijie>enable R1#conf terminal R1(config)#hos…

基于Antd4 和React-hooks的项目开发

基于Antd4 和React-hooks的项目开发 https://github.com/dL-hx/react-cnode 项目依赖使用 react 16.13react-redux 7.xreact-router-dom 5.xredux 4.xantd 4axiosmoment 2.24 (日期格式化)qs 项目视图说明 首页主题详情用户列表用户详情关于 配置按需加载 https://3x.an…

SQL进阶理论篇(十四):CBO优化器是如何计算代价的?

文章目录 简介能调整的代价模型的参数有哪些&#xff1f;mysql.server_costmysql.engine_cost 如何修改这些代价参数&#xff1f;代价模型具体是如何计算的参考文献 简介 大部分RDBMS都支持基于代价的优化器CBO&#xff0c;但其实CBO仍然存在缺陷&#xff08;比如参数配置的不…

RUST与RUSTful简介

RUST与RUSTful 1、背景2、RUST的起源3、RUST与RUSTful4、总结 1、背景 随着互联网&#xff08;Internet&#xff09;的发展&#xff0c;越来越多的人开始意识到&#xff0c;网站即软件&#xff0c;而且是一种新型的软件。这种"互联网软件"采用客户端/服务器&#xff…

外汇天眼:Cboe宣布与纽约州Secaucus的NY6数据中心建立连接

NY6数据中心将集成到Cboe的延迟均衡Secaucus基础架构中&#xff0c;目前该基础架构使用NY4和NY5数据中心。 NY6将仅作为BYX Equities、BZX Equities、EDGA Equities、EDGX Equities、BZX Options、EDGX Options和C2 Options交易所的延迟均衡出入口&#xff08;PoP&#xff09;…

Ubuntu-20.04.2 mate 上安装、配置、测试 qtcreator

一、从repo中安装 Ubuntu-20.04.2的repo中&#xff0c;qtcreator安装包挺全乎的&#xff0c;敲完 sudo apt install qtcreator 看一下同时安装和新软件包将被安装列表&#xff0c;压缩包252MB&#xff0c;解压安装后933MB&#xff0c;集大成的一包。 sudo apt install qtcrea…