【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/

基本信息

摘要

截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。

为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。

随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。

为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集包含多达100个语言对,例如,CSL→en,GSG→zh。实验结果表明,MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。

此外,我们还探索了手语的零样本翻译,并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。

主要贡献

  • 我们贡献了一个大规模的多语言手语理解数据集,适用于多种任务,如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
  • 我们是第一个探索MSLT问题的人,并提出了一种基于动态神经网络的MSLT框架,即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
  • 广泛的实验结果表明,我们提出的单模型在参数使用较少的情况下,性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。

方法

模型框架

模型框架

  • Sign Embedding: EfficientNet
  • Word Embedding: MultiBPEmb

Embedding

f t = C N N ( N t ) ( W 1 ) + b 1 f_t = CNN(N_t)(W_1) + b_1 ft=CNN(Nt)(W1)+b1

w m = E m b ( y m ) ( W 2 ) + b 2 w_m = Emb(y_m)(W_2) + b_2 wm=Emb(ym)(W2)+b2

IntraLSR

IntraLSR

h s = f ( e l ) W s , h u = f ( e l ) W u h = g u ( e l ) h u + ( 1 − g u ( e l ) ) h s e l + 1 = L a y e r N o r m ( h + e l ) \begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*} hshel+1=f(el)Ws,hu=f(el)Wu=gu(el)hu+(1gu(el))hs=LayerNorm(h+el)

g u ( ⋅ ) g_u(\cdot) gu() 表示每个语言独有的门控单元,由以下公式得到:

g u ( e l ) = σ ( ( r e l u ( e l W 3 + b 3 ) + e l ) W 4 + b 4 ) g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4) gu(el)=σ((relu(elW3+b3)+el)W4+b4)

InterLSR

InterLSR

一个示例来说明具有InterLSR模块的模型与传统模型之间的差异

α = σ ( E l a n g W 5 + b 5 ) z l + 1 = L N ( α z l + ( 1 − α ) o l + 1 ) \begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*} αzl+1=σ(ElangW5+b5)=LN(αzl+(1α)ol+1)

E l a n g E_{lang} Elang 表示语言嵌入向量。

训练

NVIDIA RTX 2080ti GPU × 1

损失函数

带 label smoothing 的交叉熵损失:

y ^ m = y m ( 1 − ϵ ) + ϵ K L c e = − ∑ m = 1 M y ^ m l o g ( P ( y m ∣ y 1 : m − 1 , V ; θ ) ) \begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*} y^mLce=ym(1ϵ)+Kϵ=m=1My^mlog(P(ymy1:m1,V;θ))

ϵ = 0.2 \epsilon=0.2 ϵ=0.2

以及一个正交损失,希望IntraLSR中的share与各语言的参数尽可能正交:

L o = 1 L ∑ i = 1 L ∥ ( W s ) T W i ∥ F 2 \mathcal{L}_o = \frac{1}{L}\sum_{i=1}^L \| (W^s)^T W_i \|^2_F Lo=L1i=1L(Ws)TWiF2

总体目标:

L = λ 1 L c e + λ 2 L o \mathcal{L} = \lambda_1 \mathcal{L}_{ce} + \lambda_2 \mathcal{L}_o L=λ1Lce+λ2Lo

λ 1 = 1 , λ 2 = 0.1 \lambda_1=1, \lambda_2=0.1 λ1=1,λ2=0.1

数据集

数据集概览

10 种手语 * 10 种口语 = 100 种手语到口语的任务

Transparent: SP-10 使用 Robust Video Matting (RVM) toolbox,分割了视频背景,这允许后续通过更换背景来进行数据增强。

SP-10数据集统计结果

实验

主实验

多种手语到英语口语文本的实验结果

多种手语到英语口语文本的实验结果。

某些手语到英语指标不如BSLT模型,可能是因为那些手语与别的手语差异较大。

British Sign Language到多种口语文本的实验结果

British Sign Language到多种口语文本的实验结果。

MSLT模型在这个任务上表现太差了,作者就没写在表里。

多种手语到多种口语文本的实验结果

多种手语到多种口语文本的实验结果。

MLSLT具有更好的性能和更少的参数。

Zero-Shot 翻译

Zero-Shot 翻译。

每个Zero-Shot模型在 4 × (4 − 1) 个口语到手语的任务上训练。

消融实验

消融实验

InterLSR对训练过程的影响

总结

在这篇论文中,我们介绍了一个具有挑战性的任务——多语言手语翻译(MSLT),并提出了第一个MSLT模型,即MLSLT。

与先前的研究相比,我们试图使用单个模型来完成多个语言对之间的翻译。为了减少不同语言之间的冲突,我们提出了两种新颖的动态路由机制。它们分别从语言层面和标记层面动态调整数据流。

为了评估我们提出方法的有效性,我们创建了第一个公开的多语言手语理解数据集,SP-10。

与先前数据集相比,SP-10包含更多的语言对,不同手语之间的配对信息为多语言文本到视频生成任务和视频到视频翻译任务创造了可能性。

我们在该数据集上进行了广泛的实验,以支持未来的研究并证明我们提出方法的有效性。我们在附录中讨论了我们工作的局限性和潜在负面影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/901661.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024-网鼎杯第二次模拟练习-web02

进入做题页面,经过信息搜集和目录扫描,发现只有一个公告是可以利用的 http://0192c74e0f9871c2956795c804c3dde3.8nfp.dg01.wangdingcup.com:43014/OA_announcement.php?id1 这个后面有一个明显的注入点,经过多次刷新和快速刷新后发现&…

使用FRP搭建内网穿透服务(新版toml配置文件,搭配反向代理方便内网网站访问)【使用frp搭建内网穿透】

FRP(Fast Reverse Proxy)是一个高性能的反向代理应用程序,主要用于内网穿透。它允许用户将内部网络服务暴露到外部网络,适用于 NAT 或防火墙环境下的服务访问。 他是一个开源的 服务 如果大家不想用 花生壳 软件,可以尝…

基于信号分解和多种深度学习结合的上证指数预测模型

大家好,我是带我去滑雪! 为了给投资者提供更准确的投资建议、帮助政府和监管部门更好地制定相关政策,维护市场稳定,本文对股民情绪和上证指数之间的关系进行更深入的研究,并结合信号分解、优化算法和深度学习对上证指数…

探索孤独症儿童治愈的希望之路

孤独症,作为一种严重影响儿童发展的神经发育障碍性疾病,给无数家庭带来了难以承受的沉重负担。然而,人们始终未曾放弃对孤独症儿童治愈可能性的不懈探索。 早期干预乃是关键所在。一旦儿童被诊断为孤独症,就应迅速启动全面且系统的…

分类预测 | GCN图卷积神经网络多特征分类预测(MATLAB)

分类预测 | GCN图卷积神经网络多特征分类预测(MATLAB) 目录 分类预测 | GCN图卷积神经网络多特征分类预测(MATLAB)分类效果基本介绍程序设计参考资料分类效果 基本介绍 GCN图卷积神经网络多特征分类预测(MATLAB) 在图卷积神经网络(GCN)中,多特征分类

orange pi开启vnc服务,并使用mac远程连接

先输入vncserver看一下是否开启了vnc服务,如果提示输入密码,就是正在开启,然后选择只是查看权限还是也有控制权限,肯定要控制阿,所以选择n。 或者输入:sudo netstat -pl | grep vnc 如果能找到vnc的进程&a…

ThriveX 现代化博客管理系统

ThriveX 现代化博客管理系统 🎉 🔥 首先最重要的事情放第一 开源不易,麻烦占用 10 秒钟的时间帮忙点个免费的 Star,再此万分感谢! 下面开始进入主题↓↓↓ 🌈 项目介绍: Thrive 是一个简而不…

生活中是否害怕过机械硬盘出现坏道?

目录 一、坏道起因 二、继续了解-系统对坏扇区的处理 (一)硬盘自身的处理机制 (二)操作系统层面的处理 三、进一步了解-备用扇区 (一)备用扇区的工作原理 (二)S.M.A.R.T.技术…

DMVPN协议

DMVPN(Dynamic Multipoint VPN)动态多点VPN 对于分公司和分总公司内网实现通信环境下,分公司是很多的。我们不可能每个分公司和总公司都挨个建立ipsec隧道 ,而且如果是分公司和分公司建立隧道,就会很麻烦。此时我们需…

【单运放可调频率正弦波电路二阶RC移相震荡文氏桥】2021-12-20

缘由想让正弦波频率是1K赫兹到100K赫兹应该怎么调节滑动变阻器,计算起来感觉不对劲-嵌入式-CSDN问答 调节R12负反馈让波形不出现销顶失真,同时负反馈深度影响输出幅值,调节频率范围有限,频率越高越不稳定。 RC移相式振荡器文氏电…

ThinkPHP+Mysql 灵活用工+灵活用工平台+灵活用工系统

基于 ThinkPHPMysql 灵活用工灵活用工平台灵活用工系统灵活用工小程序灵活用工源码灵活用工系统源码 开发语言 ThinkPHPMysql 源码合作 提供完整源代码 软件界面展示 一、企业管理后台 二、运用管理平台 三、手机端

vue文件报Cannot find module ‘webpack/lib/RuleSet‘错误处理

检查 Node.js 版本:这个问题可能与 Node.js 的版本有关。你可以尝试将 Node.js 的版本切换到 12 或更低。如果没有安装 nvm(Node Version Manager),可以通过以下命令安装: curl -o- https://raw.githubusercontent.co…

Docker 安装使用

1. 下载 下载地址:Index of linux/static/stable/x86_64/ 下载好后,将文件docker-18.06.3-ce.tgz用WinSCP等工具,上传到不能外网的linux系统服务器 2. 安装 解压后的文件夹docker中文件如下所示: 将docker中的全部文件&#xff…

基于云平台的智能家居管理系统设计与通信协议分析

案例 阅读以下关于 Web 系统架构设计的教述,在答题纸上回答问题1至问题3。 【说明】 某公司拟开发一个智能家居管理系统,该系统的主要功能需求如下: 1)用户可使用该系统客户端实现对家居设备的控制,且家居设备可向客户端反馈实时状态&#x…

威胁 Windows 和 Linux 系统的新型跨平台勒索软件:Cicada3301

近年来,网络犯罪世界出现了新的、日益复杂的威胁,能够影响广泛的目标。 这一领域最令人担忧的新功能之一是Cicada3301勒索软件,最近由几位网络安全专家进行了分析。他们有机会采访了这一危险威胁背后的勒索软件团伙的成员。 Cicada3301的崛…

工单管理用什么工具好?8款推荐清单

本文推荐的8款项目工单管理系统有:1. PingCode; 2.Worktile; 3.Teambition; 4.致远OA; 5.TAPD; 6.Gitee; 7.Wrike; 8.Trello。 很多企业在处理项目工单时,依然依赖电子邮件、Excel表格,甚至是手动记录。这样做不仅效率低下,还容易导致工单遗漏…

最新版本jdbcutils集成log4j做详细sql日志、自动释放连接...等

maven坐标 <!-- MySQL 8 --><dependency><groupId>com.mysql</groupId><artifactId>mysql-connector-j</artifactId><version>8.0.33</version></dependency><!-- Druid连接池 --><dependency><groupId&…

sass软件登录设定——未来之窗行业应用跨平台架构

一、saas软件开发中登录设计 以为大公司为参考思迅在登录时候需要录入商户号 二、独立商户商户好处 1.每个店铺的账户是独立的&#xff0c;保护商户职员账户信息的相对安全。 2.不同店铺可以试用相同用户名

qt QMediaPlaylist

QMediaPlaylist 是 Qt Multimedia 模块中的一个类&#xff0c;用于管理媒体文件的播放列表。它提供了一种方便的方式来组织和控制多媒体内容的播放&#xff0c;如音频和视频文件。 主要方法 QMediaPlaylist(00bject *parent nullptr):构造一个新的媒体播放列表对象。void add…

低代码平台如何通过AI赋能,实现更智能的业务自动化?

引言 随着数字化转型的加速推进&#xff0c;企业在日常运营中面临的业务复杂性与日俱增。如何快速响应市场需求&#xff0c;优化流程&#xff0c;并降低开发成本&#xff0c;成为各行业共同关注的核心问题。低代码平台作为一种能够快速构建应用程序的工具&#xff0c;因其可视化…