🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
基本信息
标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/
摘要
截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。
为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。
随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。
为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集包含多达100个语言对,例如,CSL→en,GSG→zh。实验结果表明,MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。
此外,我们还探索了手语的零样本翻译,并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。
主要贡献
- 我们贡献了一个大规模的多语言手语理解数据集,适用于多种任务,如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
- 我们是第一个探索MSLT问题的人,并提出了一种基于动态神经网络的MSLT框架,即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
- 广泛的实验结果表明,我们提出的单模型在参数使用较少的情况下,性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。
一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。
方法
模型框架
- Sign Embedding: EfficientNet
- Word Embedding: MultiBPEmb
Embedding
f t = C N N ( N t ) ( W 1 ) + b 1 f_t = CNN(N_t)(W_1) + b_1 ft=CNN(Nt)(W1)+b1
w m = E m b ( y m ) ( W 2 ) + b 2 w_m = Emb(y_m)(W_2) + b_2 wm=Emb(ym)(W2)+b2
IntraLSR
h s = f ( e l ) W s , h u = f ( e l ) W u h = g u ( e l ) h u + ( 1 − g u ( e l ) ) h s e l + 1 = L a y e r N o r m ( h + e l ) \begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*} hshel+1=f(el)Ws,hu=f(el)Wu=gu(el)hu+(1−gu(el))hs=LayerNorm(h+el)
g u ( ⋅ ) g_u(\cdot) gu(⋅) 表示每个语言独有的门控单元,由以下公式得到:
g u ( e l ) = σ ( ( r e l u ( e l W 3 + b 3 ) + e l ) W 4 + b 4 ) g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4) gu(el)=σ((relu(elW3+b3)+el)W4+b4)
InterLSR
α = σ ( E l a n g W 5 + b 5 ) z l + 1 = L N ( α z l + ( 1 − α ) o l + 1 ) \begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*} αzl+1=σ(ElangW5+b5)=LN(αzl+(1−α)ol+1)
E l a n g E_{lang} Elang 表示语言嵌入向量。
训练
NVIDIA RTX 2080ti GPU × 1
损失函数
带 label smoothing 的交叉熵损失:
y ^ m = y m ( 1 − ϵ ) + ϵ K L c e = − ∑ m = 1 M y ^ m l o g ( P ( y m ∣ y 1 : m − 1 , V ; θ ) ) \begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*} y^mLce=ym(1−ϵ)+Kϵ=−m=1∑My^mlog(P(ym∣y1:m−1,V;θ))
ϵ = 0.2 \epsilon=0.2 ϵ=0.2
以及一个正交损失,希望IntraLSR中的share与各语言的参数尽可能正交:
L o = 1 L ∑ i = 1 L ∥ ( W s ) T W i ∥ F 2 \mathcal{L}_o = \frac{1}{L}\sum_{i=1}^L \| (W^s)^T W_i \|^2_F Lo=L1i=1∑L∥(Ws)TWi∥F2
总体目标:
L = λ 1 L c e + λ 2 L o \mathcal{L} = \lambda_1 \mathcal{L}_{ce} + \lambda_2 \mathcal{L}_o L=λ1Lce+λ2Lo
λ 1 = 1 , λ 2 = 0.1 \lambda_1=1, \lambda_2=0.1 λ1=1,λ2=0.1
数据集
10 种手语 * 10 种口语 = 100 种手语到口语的任务
Transparent: SP-10 使用 Robust Video Matting (RVM) toolbox,分割了视频背景,这允许后续通过更换背景来进行数据增强。
实验
主实验
多种手语到英语口语文本的实验结果。
某些手语到英语指标不如BSLT模型,可能是因为那些手语与别的手语差异较大。
British Sign Language到多种口语文本的实验结果。
MSLT模型在这个任务上表现太差了,作者就没写在表里。
多种手语到多种口语文本的实验结果。
MLSLT具有更好的性能和更少的参数。
Zero-Shot 翻译。
每个Zero-Shot模型在 4 × (4 − 1) 个口语到手语的任务上训练。
消融实验
总结
在这篇论文中,我们介绍了一个具有挑战性的任务——多语言手语翻译(MSLT),并提出了第一个MSLT模型,即MLSLT。
与先前的研究相比,我们试图使用单个模型来完成多个语言对之间的翻译。为了减少不同语言之间的冲突,我们提出了两种新颖的动态路由机制。它们分别从语言层面和标记层面动态调整数据流。
为了评估我们提出方法的有效性,我们创建了第一个公开的多语言手语理解数据集,SP-10。
与先前数据集相比,SP-10包含更多的语言对,不同手语之间的配对信息为多语言文本到视频生成任务和视频到视频翻译任务创造了可能性。
我们在该数据集上进行了广泛的实验,以支持未来的研究并证明我们提出方法的有效性。我们在附录中讨论了我们工作的局限性和潜在负面影响。