奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Recognition Through Multi-scale Feature Fusion With Squeeze-and-excitation Blocks”。ICASSP上的成功发表是奇富科技在全球科技舞台上又一次的闪耀,也是对团队科研能力和创新实力的最佳证明。

15d3a4cbb9c7452c9cd5ba29a681cd6c.png 

ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有广泛的学术影响力。本年度将于2024年4月14日至19日在韩国首尔举行会议,主题为“信号处理技术:迈向真正智能的基石”,奇富科技此次被录用的论文研究方向聚焦在语音情感计算,团队提出了一种名为MS-SENet的新型网络结构,通过高效提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息相融合,获得更强的语音情绪表征向量。

情感计算领域是一个涉及计算机科学、心理学和语言学等多学科的交叉研究领域,它的主要目的是通过分析和处理语音信号中的情感信息,使计算机能够识别和理解人类的情感状态。业界主流做法是通过音频、文本等多模态信息来进行情感分类,但奇富科技团队认为人类底层情感特征是相通的,是完全可以跨越具体语种和文本内容。奇富科技团队认为可以从减少提取大量无关紧要的声学特征和针对局部频率和长期时间特征进行融合两方面去提升语音信号的情感表征学习,并基于此提出了MS-SENet框架(图1)。MS-SENet通过使用不同尺寸的卷积核提取多尺度时空特征,并引入压励模块来有效捕捉这些多尺度特征。同时通过跳跃连接和空间丢失层防止过拟合并增加模型深度,进一步提高了情感计算模型的表达能力。

8774aedf82994d7f8785b22ae103eb37.png 

图1 奇富科技自研MS-SENet音频情感计算网络框架

奇富科技团队在论文中评估了包括中科院自动化所语音情感数据集、柏林情感数据库、意大利语数据集、互动情感二元运动捕捉数据库、Surrey音频视觉表达情感数据集以及Ryerson音频视觉情感演讲与歌曲数据集在内的六个不同场景的多语种的数据集。和SOTA(state of the art,是指在特定任务中目前表现最优的方法或模型)相比,MS-SENet将UA和WA提高了1.31%和1.61%,同时MS-SENet在具有更多情感类别和较低数据量的情况下,仍然保持着出色的情感识别能力。

5d076c09ed6a47fcaa316d709de1958b.png 

表1 奇富科技自研MS-SENet与学术界2019~2023年度SOTA在六大评测集上的表现

奇富科技团队还利用t-SNE技术对MS-SENet和SOTA模型(TIM-Net)的表征进行了可视化,从下图可以观察到MS-SENet形成了具有清晰分类边界的独特表征聚类。

b754320c6b0e492994f20dbc7a9f55c6.png 

图2 奇富科技自研MS-SENet与2023年度SOTA(TIM-Net)在SAVEE语料库上的可视化表征图,图(b)各个情绪分类边界明显更清晰

奇富科技的语音情感计算研究不止于理论突破,更是实际应用的成功典范。
在贷后降投诉项目中,异常情绪监测首次被应用在实景业务当中。通过对高风险客群的录音通话进行逐通分析,及时遴选出异常情绪的客户,以便相关人员可以及时介入,实验结果表明模型组投诉率低于对照组4个绝对值百分点。

此外,奇富科技大模型部自研的Orpheus-声学感知系统(Orpheus Acoustics Perceptual System,以下简称Orpheus-APS)中已成功地整合情感计算模块,该系统着重聚焦声学环境、音频内容和说话人三大感知维度,提供了崭新的智能外呼平台交互质量评估视角。例如,在质检场景中,Orpheus-APS不仅具备传统声学检测功能,更以其情感感知能力为亮点。与市面上已有简单的单句维度情感分类不同,Orpheus-APS可以在时间维度绘制连续的完整情绪光谱,更直观呈现说话者在通话过程中情绪状态的连续变化。情绪光谱的绘制精准反馈了坐席在通话过程中的情绪波动和趋势,为质检人员提供了全新的观察角度,也为企业利用好海量通话交互数据提供了全新的工具,是实现业务管理决策、战略规划数智化过程中重要的一步。

10cb11031dfb4c268957781cdb292b98.png 

图3 某贷后坐席的录音情绪光谱图,直观反映坐席在通话过程中的情绪波动过程

此次论文的成功录用,不仅是奇富科技团队的成果,更是中国科技创新的典范。奇富科技在国际顶会上的亮眼表现,将进一步提升中国科技企业的国际声望,为产业升级和技术进步贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/274656.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PHP的Laravel加一个小页面出现问题(whereRaw的用法)

1.权限更新问题 因为是已经有样例了所以html和php页面很快写出来了 然后就是页面写完了路由不知道在哪写,后来想起来之前有要开权限来着,试了一下,还是不行,不过方向是对了 这是加的路由,不过需要在更新一下权限 这…

知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案

前言 如之前的文章所述,我司下半年成立大模型项目团队之后,我虽兼管整个项目团队,但为让项目的推进效率更高,故分成了三大项目组 第一项目组由霍哥带头负责类似AIGC模特生成系统第二项目组由阿荀带头负责论文审稿GPT以及AI agen…

在 Windows 中安装 SQLite 数据库

在 Windows 上安装 SQLite 步骤1 请访问 SQLite 下载页面,从 Windows 区下载预编译的二进制文件 ​ 步骤2 您需要下载 sqlite-dll-win-x64-3440200.zip 和 sqlite-tools-win-x64-3440200.zip 压缩文件 步骤3 创建文件夹 C:\Program Files\SQLite,并在…

PHP的Laravel的数据库迁移

1.默认迁移文件 2.数据库迁移 在终端输入以下代码 php artisan migrate 我的报错啦!!!!! 数据库里面只有两张表,实际上应该有四张的!!! 解决方法: 反正表已…

Modbus RTU转Modbus TCP模块,RS232/485转以太网模块,YL102 多功能串口服务器模块

特点: ● Modbus RTU协议自动转换成Mobus TCP协议 ● 100M高速网卡,10/100M 自适应以太网接口 ● 支持 AUTO MDI/MDIX,可使用交叉网线或平行网线连接 ● RS232波特率从300到256000可设置 ● 工作方式可选择TCP Server, TCP Client, U…

【Leetcode】重排链表、旋转链表、反转链表||

目录 💡重排链表 题目描述 方法一: 方法二: 💡旋转链表 题目描述 方法: 💡反转链表|| 题目描述 方法: 💡总结 💡重排链表 题目描述 给定一个单链表 L 的头节…

位移贴图、凹凸贴图和法线贴图之间的差异

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 这三种类型的贴图中的每一种都会在几何体表面上创建看起来像其他分辨…

uniApp中uView组件库的丰富布局方法

目录 基本使用 #分栏间隔 #混合布局 #分栏偏移 #对齐方式 API #Row Props #Col Props #Row Events #Col Events UniApp的uView组件库是一个丰富的UI组件库,提供了各种常用的UI组件和布局方法,帮助开发者快速构建美观、灵活的界面。下面给你写一…

(windows2012共享文件夹和防火墙设置

windows2012共享文件夹和防火墙设置 1.windows2012文件夹共享1.共享和高级共享的区别![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0d815cc6862a4c7a99be11442fb5d950.png#pic_center) 2.windows的防火墙设置1.防火墙设置8080端口让tomot可以在主机可以访问1.新建…

Switch语句与链接—计算机系统基础

实验内容:修改二进制可重定位目标文件“phase1.o”中相关节的内容(注意不允许修改.text节和重定位节的内容),使其与main.o模块如下链接后运行时输出目标字符串“123456789” gcc -no-pie -o linkbomb main.o phase1.o ./linkbomb…

Pandas的datetime数据类型

Python的datetime对象 Python内置了datetime对象,可以在datetime库中找到 from datetime import datetime now datetime.now() now 还可以手动创建datetime t2 datetime(2023,4,21) now-t2 # datetime.timedelta(days251, seconds31427, microseconds546921)将…

C# WPF上位机开发(MVVM模式开发)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 学习过vue的同学都知道mvvm这个名词。从字面上理解,可能有点拗口,但是我们可以去理解一下它的优点是什么。mvc相信大家都明…

生产系统稳定上线600天!中国联通CUDB for OceanBase的开源共建和规模化应用

中国联通软件研究院架构部平台承载了上千应用的数据库需求,并且现存大量数据库使用过程缺少规范、缺少监控,同时还存在着数据库核心技术相关风险。为了实现核心技术自主可控,及时为用户解决线上问题、满足用户的功能需求,提供物美…

GIT提交、回滚等基本操作记录

1、add文件时warning: LF will be replaced by CRLF in .idea/workspace.xml. 原因:windows中的换行符为 CRLF, 而在Linux下的换行符为LF,所以在执行add . 时会出现以下提示 解决:git config core.autocrlf false 2、GIT命令&…

【数据库系统概论】第4章-数据库安全性

复习用,别看了 文章目录 4.1 计算机安全性概述4.2 数据库安全性控制4.2.1 用户标识和鉴定4.2.2 存取控制4.2.3 自主存取控制方法4.2.4 数据库角色4.2.5 强制存取控制 4.3 视图机制4.4 审计4.5 数据加密4.6 其他安全性保护 4.1 计算机安全性概述 不安全因素 4.2 …

gin框架使用系列之五——表单校验

系列目录 《gin框架使用系列之一——快速启动和url分组》《gin框架使用系列之二——uri占位符和占位符变量的获取》《gin框架使用系列之三——获取表单数据》《gin框架使用系列之四——json和protobuf的渲染》 一 、表单验证的基本理论 在第三篇中,我们介绍了如何…

linux系统 CentOS Tomcat 部署论坛

jdk安装命令:yum -y install java-1.8.0-openjdk-devel.x86_64 结尾上显示下图为成功 检查jdk环境是否配置成功命令:java -version或javac 显示版本 显示信息 mysql安装: 检查是否存mariadb数据库:rpm -qa | grep mariad 卸载ma…

Elasticsearch中复制一个索引数据到新的索引中

问题 我有时候,需要调试一个已经存在的ES索引,需要从已有的索引复制数据到新的索引中去。 解决 这里我借助一个GUI工具,来解决这个问题,底层它是使用Reindex的API实现索引数据复制的。利用Reindex API搞不定这个事情&#xff0…

【MATLAB】PSO粒子群优化BiLSTM(PSO_BiLSTM)的时间序列预测

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 基于PSO粒子群优化的BiLSTM的时间序列预测算法的基本原理如下: 「双向长短时记忆(BiLSTM)模型」:这是一种深度学习模型,特别适用…

C#编程艺术:Fizzler库助您高效爬取www.twitter.com音频

数据是当今数字时代的核心资源,但是从互联网上抓取数据并不容易。本文将教您如何利用C#编程艺术和Fizzler库高效爬取Twitter上的音频数据,让您轻松获取所需信息。 Twitter简介 Twitter是全球最大的社交媒体平台之一,包含丰富的音频资源。用…