视觉语音识别挑战赛 CNVSRC 2024

       CNVSRC 2024由NCMMSC 2024组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办竞赛的目标是通过口唇动作来推断发音内容,进一步推动视觉语音识别技术的发展。视觉语音识别(也称为读唇技术)是一种通过观察唇部动作推断发音内容的技术,广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

     当前,读唇研究仍处于初级阶段,无法满足实际应用需求。尽管在短语识别上取得了显著进展,但在大规模连续识别方面仍面临巨大挑战,尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1):专注于对特定说话人大规模调整的性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2):专注于系统对非特定说话人的基本性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

2、挑战数据集

  • CN-CVS:2023年,清华大学的CSLT(Center for Speech and Language Technologies)发布了CN-CVS数据集,包含超过2557名说话者的视觉语音数据,超过300小时,涵盖新闻广播和公共演讲场景,是目前最大的开源中文视觉语音数据集,为推动大规模连续视觉语音识别(LVCVSR)提供了可能性
  • CNVSRC-Single:单说话者数据,包含来自互联网媒体的音频和视频数据,超过100小时。
  • CNVSRC-Multi:多说话者数据,包含43名说话者的音频和视频数据,每人近1小时。
  • CN-CVS2-P1:开放式赛道的额外数据源,提供超过16万句话语,总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率(Character Error Rate, CER)作为主要评价指标。

CER主要由三种类型的错误组成:插入(Insertion)、替代(Substitution)和删除(Deletion),Nins、Nsubs、Ndel代表三种类型的错误数量,Ntotal代表错误总数量。

  • 插入错误发生在正确的字符之间不应该有任何字符,但实际上却出现了一个额外的字符。
  • 替代错误是指正确的字符被错误地替换为另一个字符。
  • 删除错误发生在一个字符应该存在的地方,但是却没有该字符。
  • 4、基线系统性能

基线系统旨在提供一个合理的性能基准,使用与固定赛道(Fixed Track)允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,常用于语音识别任务。

基线系统的性能通过字符错误率(CER)来衡量,这是评估视觉语音识别系统的主要指标。

  • 在固定赛道的单说话者视觉语音识别(VSR)任务上,基线系统在开发集(Dev Set)上的CER为41.22%,在评估集(Eval Set)上的CER为39.66%。
  • 在多说话者视觉语音识别任务上,基线系统在开发集上的CER为52.42%,在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

  • 改进特征提取:利用更有效的视觉特征提取技术,如3D卷积、自注意力机制等,以获取更丰富的时空信息。
  • 增加训练数据量:利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集,同时收集更多高质量的训练数据。
  • 引入语言模型:使用N-gram或RNN语言模型,以约束解码器输出合理的单词序列。
  • 使用预训练模型:在固定赛道中,可以利用预训练的声学模型和语言模型作为特征提取器。
  • 改进解码器:尝试使用集束搜索或基于注意力机制的解码器,以提高解码质量。
  • 模型融合:使用集成学习技术,如模型平均或堆叠,以提高整体性能。
  • 数据清洗和增强:对训练数据进行清洗,去除质量较差的样本,并进行增强以提高模型的泛化能力。
  • 微调和调优:在测试集上进行模型调优,找到最优的模型参数配置。
  • 研究注意力机制:设计新的注意力机制,以使模型更关注关键信息,如嘴唇区域。
  • 使用端到端训练:通过端到端训练,使模型各部分能更好地协同工作。

6、关键日期

2024.05.08

注册开始

2024.05.08

数据集发布

2024.05.08

基线系统发布

2024.07.01

递交系统开放

2024.08.01

结果递交截止

2024.08.15

NCMMSC 2024 研讨会

7、相关资源

官网:http://cnceleb.org/competition#registration

基线系统源代码:Files · cncvs · Lantian Li / Sunine · GitLab。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/659458.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux下Git的基本使用

认识Git 先基于Windows下的git操作,熟悉了git的基本概念和使用,直接参考这几篇文章: Git概述、安装与本地仓库的基本操作-CSDN博客 Git本地仓库与远程仓库的交互-CSDN博客 GtiHub远程仓库之间的交互-CSDN博客 Git仓库的分支操作-CSDN博客 仓库…

深入分析 Android Activity (二)

文章目录 深入分析 Android Activity (二)1. Activity 的启动模式(Launch Modes)1.1 标准模式(standard)1.2 单顶模式(singleTop)1.3 单任务模式(singleTask)1.4 单实例模式&#xf…

关于验证码的那些漏洞

一、短信轰炸 这类漏洞存在的原因是没有对短信验证码的发送时间、用户及其IP作一些限制。 案例1、正常的短信轰炸 burp一直发包即可 案例2、并发绕过 做了限制咋办?可以试试并发(万物皆可并发) 使用turbo intruder插件进行并发。 并发次数越大是不是轰炸就越多。 …

有1,2,3,4这四个数字,能组成多少个互不相同且无重复数字的三个数?分别是什么?

有1,2,3,4这四个数字,能组成多少个互不相同且无重复数字的三个数?分别是什么? 提示:123,321就是符合要求,数字既不相同,而且每个数字的个十百位也不重复;而121,212就不行&#xff0c…

spdlog 使用

spdlog 是一个日志库,直接引用头文件即可使用,速度快,异步打印日志。 对应的git地址 spdloggit地址 对应的目录 把上面划线的文件夹引入到自己的工程中,即可使用spdlog 下面是使用例子 inline static void create_logging(const…

redis-cli help使用

1. redis-cli命令使用—先连接上服务器 连接到 Redis 服务器: 使用 redis-cli 命令即可连接到本地运行的 Redis 服务器,默认连接到本地的 6379 端口。 redis-cli如果 Redis 服务器不在本地或者端口不同,可以使用 -h 和 -p 参数指定主机和端…

CCF CAT- 全国算法精英大赛(2024第二场)往届真题练习 4 | 珂学家

前言 餐馆 思路:可撤销的0-1背包 考察了多个知识点,包括 差分技巧离线思路0-1背包 不过这题卡语言,尤其卡python import java.io.*; import java.util.*; import java.util.stream.Collectors; import java.util.stream.IntStream;public…

前端实习记录——git篇(公司拉取项目流程)

实习中第一步就是拉取项目,看项目代码,下面总结一下我在公司项目拉取项目流程。 1、联系leader开通gitlab账号 2、查看/配置git用户名和密码 (1)查看 git config user.name git config user.email git config user.password &…

python基础-数据结构-leetcode刷题必看-heapq --- 堆队列算法,TopK问题

文章目录 堆堆的定义堆的主要操作堆的构建堆排序heapq模块heapq.heappush(heap, item)heapq.heappop(heap)heapq.heappushpop(heap, item)heapq.heapreplace(heap, item)heapq.merge(*iterables, keyNone, reverseFalse)heapq.nlargest(n, iterable, keyNone)heapq.nsmallest(n…

【移除链表元素】python

目录 题目: 方法: 知识: 代码: 题目: 方法: 在头节点前增加一个虚拟头节点 知识: 链表中的每一个节点只包含当前值val和指向下一个next 代码: class Solution:def removeEle…

AI新时代——【深度学习】驱动的【AIGC大模型】与【机器学习】的创新融合

目录 1.机器学习与人工智能的基础 1.机器学习的基本原理 2.人工智能的广泛应用 2.深度学习的崛起 1.深度学习的概念和原理 2.卷积神经网络(CNN) 3.循环神经网络(RNN) 3.AIGC大模型的创新 1.AIGC的概念和应用 2.代表性AI…

网络侦察技术

网络侦察技术 收集的信息网络侦察步骤搜索引擎检索命令bing搜索引擎Baidu搜索引擎Shodan钟馗之眼(zoomeye) whois数据库:信息宝库查询注册资料 域名系统网络拓扑社交网络跨域拓展攻击 其它侦察手段社会工程学社会工程学常见形式Web网站查询 其它非技术侦察手段总结网…

连接远程的kafka【linux】

# 连接远程的kafka【linux】 前言版权推荐连接远程的kafka【linux】一、开放防火墙端口二、本地测试是否能访问端口三、远程kafka配置四、开启远程kakfa五、本地测试能否连接远程六、SpringBoot测试连接 遇到的问题最后 前言 2024-5-14 18:45:48 以下内容源自《【linux】》 仅…

如何使用宝塔面板搭建Tipask问答社区网站并发布公网远程访问

文章目录 前言1.Tipask网站搭建1.1 Tipask网站下载和安装1.2 Tipask网页测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar临时数据隧道2.2 Cpolar稳定隧道(云端设置)2.3 Cpolar稳定隧道(本地设置) 3. 公网访问测试4.结语 前…

S32K --- FLS MCAL配置

一、前言 二、MCAL配置 添加一个Mem_43_infls的模块, infls是访问内部flash, exfls是访问外部flash 2.1 General 这边暂时保持的默认,还没详细的去研究,等有空研究了,我再来更新 2.2 MemInstance 双金“index”的下标“0”可以进里面详细配置,这个是基本操作了。 2.2.1 G…

面试问到Spring中的@Autowired注解,可以这样答

前言 在Spring框架中,依赖注入是一个核心概念,它允许将一个对象的依赖关系外部化并由Spring容器来管理。Autowired注解是实现这一点的关键工具之一。当然,这块知识也是面试官们老生常谈的问题。 下面就跟着博主的步伐,一起来探讨…

Three.js是基于原生WebGL封装的三维引擎

Three.js: 基于原生WebGL封装的三维引擎 引言 随着互联网技术的发展,Web前端技术不断进步,用户对于网页交互体验的要求也越来越高。艾斯视觉前端开发:三维技术作为提升用户体验的重要手段之一,正在逐渐成为前端开发中的热门技术…

PyTorch张量索引用法速查

作为数据科学家或软件工程师,你可能经常处理大型数据集和复杂的数学运算,这些运算需要高效且可扩展的计算。PyTorch 是一个流行的开源机器学习库,它通过 GPU 加速提供快速灵活的张量计算。在本文中,我们将深入研究 PyTorch 张量索…

纷享销客当选江西省数字经济学会首席信息官专业委员会副主任委员

5月11日,江西省数字经济学会首席信息官(CIO)专业委员会成立大会暨“新质生产力”企业数字化转型论坛在南昌香格里拉大酒店隆重举行。 江西省工业和信息化厅作为指导单位,由江西省数字经济学会、南昌市中小企业服务局主办,金蝶软件&#xff0…

单值二叉树(oJ题)

一、题目连接:. - 力扣(LeetCode) 二、题目思路 遍历左右子树,如果左子树存在不为空并且根结点的值不等于左子树的值,返回false, 如果右子树存在不为空并且根结点的值不等于右子树的值,返回false, 每一个…