文章目录
- BLEU: a Method for Automatic Evaluation of Machine Translation
- 背景和意义
- 技术原理
- 考虑 n n n - gram中 n = 1 n=1 n=1 的情况
- 考虑 n n n - gram中 n > 1 n\gt 1 n>1 的情况
- 考虑在文本中的评估
- 初步实验评估和结论
- 统一不同 n n n 值下的评估数值
- 考虑句子长度对评估系统的影响
- 使用惩罚因子对句子长度效应做惩罚
- BLUE 总结
- BLEU 评估
- BLEU 与人类参与的评估进行对比
- 维基百科介绍
- 补充内容
BLEU: a Method for Automatic Evaluation of Machine Translation
背景和意义
We propose a method of automatic machine translation evaluation that is quick, inexpensive, and language-independent, that correlates highly with human evaluation, and that has little marginal cost per run.
提出了一种自动机器翻译评估方法,该方法快速、廉价且与语言无关,与人工评估高度相关,并且每次运行的边际成本很小。将这种方法作为自动替补提供给会熟练使用的人类,当需要快速或频繁的评估时,可以替代他们。
人类对机器翻译(Machine Translation, MT)的评估权衡了翻译的许多方面,包括翻译的充分性、保真度和流畅性,这相当于古代人们说的“信达雅”。发表这篇论文(2002年)之前的机器翻译评估方法,评估成本非常的昂贵,且需要花费大量的时间完成。这样对机器翻译系统的开发者是很不利的,因为系统的开发需要试错,即设计若干次就需要验证一次,而长时间的等待验证不利于机器翻译系统的迭代升级。此外,对于学术而言,也仍然需要很多的 idea 被设计实践,冗长的等待验证也不利于学术的更新。所以这篇论文的研究意义拔高了:需要一种廉价、自动、快速且语言无关的评估方法来加速机器翻译任务的评估。
The closer a machine translation is to a professional human translation, the better it is.
This is the central idea behind our proposal.
机器翻译需要与人类翻译对齐(合情合理)。机器翻译越接近于专业的人类翻译,它就越好。作为一个评估系统,且是要面向工业界和学术界的,那么必然不能局限于定性判断,必须要定量的评估结果。所以作者提出了他们设计的评估系统具备两个特点:首先,评估能输出数值;其次,评估需要一定量的人类参考文本来作为机器翻译的“参考答案”。
技术原理
如何实现提出的评估系统?主要思想是:使用可变长度短语作为模板 来匹配 参考翻译句子集合,并求加权平均值得出结果。
具体来看一个简单的翻译任务。
假设源句子是中文:”我最喜欢的动物是猫咪“。
假设有两个机器 M 1 M_{1} M1 和 M 2 M_{2} M2 来对这个句子进行翻译:
- M 1 M_{1} M1: My favorite animal is cat.
- M 2 M_{2} M2: Dog is our likely animal. (假设 M 2 M_{2} M2 机器存在问题,能翻译句子但是存在故障)
假设有一个人类专业级别翻译的参考句子 R 1 R_{1} R1 。(参考句子一般不只一条,这里简化处理)
- R 1 R_{1} R1: Cat is my favorite animal.
那么会发现: M 1 M_{1} M1 是良好的机器翻译结果, M 1 M_{1} M1 与参考翻译 R 1 R_{1} R1 匹配到很多相同的单词和短语,而 M 2 M_{2} M2 则没有匹配到很多。可见,通过比较每个候选翻译和参考翻译之间的 n n n-gram 匹配,可以编写一个程序得到”候选 M 1 M_{1} M1 的排名高于候选 M 2 M_{2} M2 “的结果,且还能得到定量的数值。
BLEU 的主要任务是:将候选对象(机器翻译结果)的 n n n-gram 与参考翻译(人类专业翻译结果)的 n n n-gram 进行匹配,并计算匹配的数量。这些匹配项是与位置无关的(”把“字句和”被“字句都是可以的)。匹配的次数越多,候选者的翻译(机器翻译能力)就越好。
为了简单起见,首先关注计算 n n n-gram 匹配中 n = 1 n=1 n=1 的情况。
We fashion our closeness metric after ⋯ \cdots ⋯, appropriately modified for multiple reference translations and allowing for legitimate differences in word choice and word order.
- modified for multiple reference translations : 这个评估方法不强求机器翻译的结果与人类专业翻译结果完全一致(词语、词位置等等),相当于增加了翻译容错性。
- legitimate differences in word choice and word order : 源句子是”把“字句,那么机器翻译的句子是”被“字句,这是被容许的。同理,增加了翻译容错性。
考虑 n n n - gram中 n = 1 n=1 n=1 的情况
To compute this, one first counts the maximum number of times a word occurs in any single reference translation. Next, one clips the total count of each candidate word by its maximum reference count, adds these clipped counts up, and divides by the total (unclipped) number of candidate words.
-
首先,计算一个候选单词在任何单一参考翻译中出现的最大次数,即:候选单词的最大引用计数。
-
接下来,根据每个候选单词的最大引用计数限制每个候选单词的在句子中有效的总数。
In other words, one truncates each word’s count, if necessary, to not exceed the largest count observed in any single reference for that word.
可以截断每个单词的计数,以不超过在该单词的任何单一引用中观察到的最大计数。
-
最后,将这些限制后的计数,除以候选翻译句子的总数(未裁剪)。
具体来看论文的例子:
Candidate:
the the the the the the the.
Reference 1:
The cat is on the mat.
Reference 2:
There is a cat on the mat.
第一步,计算一个候选单词(Candidate的句子里面只能是
the
)在任何单一参考翻译中出现的最大次数。在 Reference 1 里面是 2 次,包括大小写;在 Reference 2 里面是 1 次;因此:候选单词the
的最大引用计数等于 2 。第二步:用候选单词
the
的最大引用计数 2 ,但是 Candidate 句子中the
出现的次数是 7 ,限制每个候选单词在句子内的有效的总数就是 2 。也就是说, Candidate 句子中出现了非常的多次的the
单词,但是有效的单词也就是 2 个。第三步:用 2 除以 Candidate 句子中单词总数 7 得到 2 7 \frac{2}{7} 72 结果。
再看更一般的例子:
Candidate 1:
It is a guide to action which ensures that the military always obeys the commands of the party.
Reference 1:
It is a guide to action that ensures that the military will forever heed Party commands.
Reference 2:
It is the guiding principle which guarantees the military forces always being under the command of the Party.
Reference 3:
It is the practical guide for the army always to heed the directions of the party.
首先,针对第一个单词
It
:第一步,候选单词
It
的最大引用计数等于 3 。第二步:Candidate 句子中
It
出现的次数是 1 ,小于It
的最大引用计数 3 ,不用加以限制,也就是有效的单词也就是 1 个。第三步:用 1 除以 Candidate 句子中单词总数 18 得到 1 18 \frac{1}{18} 181 结果。
然后,针对第一个单词
the
:第一步,候选单词
the
的最大引用计数等于 4 。第二步:Candidate 句子中
the
出现的次数是 3 ,小于It
的最大引用计数 4 ,不用加以限制,也就是有效的单词也就是 3 个。第三步:用 3 除以 Candidate 句子中单词总数 18 得到 3 18 \frac{3}{18} 183 结果。
最后,经过比对,得到 Candidate 1 的句子的分数是 17 18 \frac{17}{18} 1817 ,这就意味着除了单词
obey
没出现在参考句子以外,其他都出现了,且都是有效的单词。
考虑 n n n - gram中 n > 1 n\gt 1 n>1 的情况
All candidate n-gram counts and their corresponding maximum reference counts are collected. The candidate counts are clipped by their corresponding reference maximum value, summed, and divided by the total number of candidate n n n - grams.
- 首先,计算一个候选短语在任何单一参考翻译中出现的最大次数,即:候选短语的最大引用计数。
- 接下来,根据每个候选短语的最大引用计数限制每个候选短语的在句子中有效的总数。
- 最后,将这些限制后的计数,除以候选翻译短语的总数(未裁剪)。
Candidate 1:
It is a guide to action which ensures that the military always obeys the commands of the party.
Reference 1:
It is a guide to action that ensures that the military will forever heed Party commands.
Reference 2:
It is the guiding principle which guarantees the military forces always being under the command of the Party.
Reference 3:
It is the practical guide for the army always to heed the directions of the party.
首先,针对第一个短语
It is
:第一步,候选短语
It is
的最大引用计数等于 3 。第二步:Candidate 句子中
It is
出现的次数是 1 ,小于It is
的最大引用计数 3 ,不用加以限制,也就是有效的短语也就是 1 个。第三步:用 1 除以 Candidate 句子中短语总数 17 得到 1 17 \frac{1}{17} 171 结果。
然后,针对短语
action which
:第一步,候选短语
action which
的最大引用计数等于 0 ,也就是参考翻译中没有这样的短语。第二步:Candidate 句子中
action which
出现的次数是 1 ,大于action which
的最大引用计数 0 ,需要限制,也就是有效的短语也就是 0 个。第三步:用 0 除以 Candidate 句子中短语总数 18 得到 0 17 \frac{0}{17} 170 结果。
最后,经过比对,得到 Candidate 1 的句子的分数是 10 17 \frac{10}{17} 1710 。
This sort of modified n n n - gram precision scoring captures two aspects of translation: adequacy and fluency. A translation using the same words ( 1 1 1 - grams) as in the references tends to satisfy adequacy. The longer n-gram matches account for fluency.
介绍完评价的具体方法后,作者认为这样的评估满足了机器翻译要求的充分性和流畅性的指标。 n = 1 n=1 n=1 只能保证充分性,也就是机器翻译出来的单词在使用次数上接近人工专业翻译,因此可以充分保证机器翻译结果是接近人类的,但是没有考虑到上下文的关系,因此不能保证流畅性。 n > 1 n\gt 1 n>1 考虑到了前后词语的关系,流畅性就保证了。而且可以预料到 n n n 越大越能保证流畅性。
考虑在文本中的评估
如何在多句子测试集上计算修正的 n n n -gram 精度?
首先,计算机器翻译句子的
n
n
n - gram 匹配。接下来,将所有机器翻译句子的裁剪
n
n
n - gram 计数除以测试语料库中这个
n
n
n - gram 的数量,计算出整个测试语料库的修正精度分数
p
n
p_n
pn 。
p
n
=
∑
C
∈
{
C
a
n
d
i
d
a
t
e
s
}
∑
n
−
g
r
a
m
∈
C
C
o
u
n
t
c
l
i
p
(
n
−
g
r
a
m
)
∑
C
′
∈
{
C
a
n
d
i
d
a
t
e
s
}
∑
n
′
−
g
r
a
m
∈
C
′
C
o
u
n
t
(
n
′
−
g
r
a
m
)
=
1
+
1
+
2
+
2
+
1
1
+
2
+
3
+
2
+
1
≤
1
(1)
\begin{align} p_{n} &= \frac{\sum_{C\in\{Candidates\}}\sum_{n-gram\in C}Count_{clip}(n-gram)}{\sum_{C^{\prime}\in\{Candidates\}}\sum_{n^{\prime}-gram\in C^{\prime}}Count(n^{\prime}-gram)} \\ &=\frac{1+1+2+2+1}{1+2+3+2+1} \le 1 \end{align}\tag{1}
pn=∑C′∈{Candidates}∑n′−gram∈C′Count(n′−gram)∑C∈{Candidates}∑n−gram∈CCountclip(n−gram)=1+2+3+2+11+1+2+2+1≤1(1)
根据公式来看,更像是在候选句子集和里面计算出所有
n
n
n - gram 在参考句子集里面匹配的次数,再做限制clip得到的有效
n
n
n - gram 次数,除以
n
n
n - gram 在候选句子集里面的总数。
初步实验评估和结论
当作者从 1 1 1 -gram 精度到 4 4 4 -gram 精度时,差异变得更强。这是因为 4 4 4 -gram 需要更长的短语匹配,这对于机器翻译来说必须准确track人类的翻译。似乎任何 n n n 值的 n n n - gram 精度分数都可以区分好的翻译和坏的翻译。
然而,度量还必须可靠地区分质量差别不大的翻译。此外,它还必须区分两种不同质量的人类翻译。后一种要求确保了当MT接近人类翻译质量时,度量的持续有效性。这里也就强调了评估系统要有很强的灵敏度。
论文的实验表明:这个方法可以在不同 n n n 值的 n n n - gram 精度中显著区分“人-人”、“人-机”和“机-机”翻译能力。虽然在任何单一的 n n n 值精度中似乎都有足够的评估数值,但将所有这些信号合并成一个单一的数字度量更鲁棒。
统一不同 n n n 值下的评估数值
修正后的 n n n - gram 精度随 n n n 大致呈指数衰减:修正后的 1 1 1 -gram 精度比修正后的 2 2 2 -gram 精度大得多,而 2 2 2 -gram 精度又比修正后的 3 3 3 -gram 精度大得多。
一个合理的平均方案必须考虑到这种指数衰减;修正精度的对数的加权平均值就满足了这一要求。BLEU 使用均匀权重的平均对数,相当于使用修改后的 n n n - gram 的几何平均值。使用最大 n n n 值为 4 获得了与只掌握单语言人类判断的最佳相关性,尽管 n n n 值为 3 和 n n n 值为 5 给出的结果相当。
加权几何平均值公式:
G = X 1 f 1 ⋅ X 2 f 2 ⋯ X n f n ( f 1 + f 2 + ⋯ + f n ) = ∏ X f ∑ f G=\sqrt[(f_{1}+f_{2}+\cdots+f_{n})]{X_{1}^{f_{1}}\cdot X_{2}^{f_{2}}\cdots X_{n}^{f_{n}}} = \sqrt[\sum f]{\prod X^{f}} G=(f1+f2+⋯+fn)X1f1⋅X2f2⋯Xnfn=∑f∏Xf
百度百科定义: X X X 是权重, f f f 是变量值。可见对数加权相加,实际上就是几何平均值再取对数,这在后面作者正式引入 BLEU 会提及。
考虑句子长度对评估系统的影响
n n n - gram 精度惩罚没有出现在任何参考翻译中的候选伪词。如果一个单词在候选翻译中出现的频率高于其最大引用计数,那么修改后的精度就会受到惩罚(通过 clip 函数进行惩罚)。这将奖励使用一个单词的次数,并惩罚使用一个单词的次数超过它在任何引用中出现的次数,即通过 n n n - gram 精度控制一个单词不会使用太多次,也不会逼迫机器使用生僻词语进行翻译。
仅修改的 n n n - gram 精度这个方法需要在适当的翻译长度内才可以执行,如果机器翻译出的句子太短了,句子中包含的词语太少,导致在不同 n n n 值的 n n n - gram 精度下都能与参考翻译进行很好的匹配,这就导致越短的句子 n n n - gram 精度就越高,这显然不合理。
此处可以参考 这个网页 。
作者的意思是:观察到良好的翻译指标还应该考虑翻译的长度;但是到目前为止,论文的主要焦点是修改后的 n n n - gram 精度,它无法正确解释太短或太长的机器翻译结果。想要获得好的评估,论文作者肯定:不仅希望所有单词都正确,而且还希望翻译覆盖整个参考句子。以牺牲召回率为代价而使精度过高的唯一方法是使句子变短,以避免输出有风险的单词。因此,他们得出的结论是,只能惩罚太短的句子。为了不受到惩罚,模型需要输出足够长的句子,但如果它们不正确,就会受到精度的惩罚。
使用惩罚因子对句子长度效应做惩罚
Consequently, we introduce a multiplicative brevity penalty factor. With this brevity penalty in place, a high-scoring candidate translation must now match the reference translations in length, in word choice, and in word order.
比其参考翻译句子更长的候选翻译,已经被修改后的 n n n - gram 精度所惩罚(就是 clip 过程),因此没有必要再次惩罚它们。但是短句子需要惩罚!因此引入了一个简洁的惩罚因子。有了这种简洁的惩罚,一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。请注意,这种简洁的惩罚因子和修改后的 n n n - gram 精度,在考虑长度效应时,都没有直接考虑源长度;相反,他们考虑目标语言中参考翻译长度的范围。
如何实现的呢?
-
当候选的机器翻译句子的长度与任何参考人工翻译句子的长度相同时,使简洁性惩罚数值为1.0。
We wish to make the brevity penalty 1.0 when the candidate’s length is the same as any reference translation’s length.
注意是 “任何” ,只要满足一个就可以!
例如,如果有三个长度为12、15和17个单词的参考人工翻译句子,并且候选的机器翻译句子是一个简洁的12个单词,我们设置简洁性惩罚为1。
最接近的参考句长度为“最佳匹配长度”。
-
当逐句计算简洁惩罚并对惩罚进行平均,那么短句子的长度偏差将受到严厉的惩罚。
One consideration remains: if we computed the brevity penalty sentence by sentence and averaged the penalties, then length deviations on short sentences would be punished harshly.
We first compute the test corpus’ effective reference length, r r r, by summing the best match lengths for each candidate sentence in the corpus.
通过对语料库中每个候选机器翻译句子的最佳匹配长度求和来计算测试语料库的有效参考长度 r r r 。选择简洁性惩罚为衰减指数 r c \frac{r}{c} cr ,其中 c c c 是候选机器翻译句子的总长度,也就是:
r c = r 1 + r 2 + ⋯ + r N c 1 + c 2 + ⋯ + c N = ( r 1 + r 2 + ⋯ + r N ) / N ( c 1 + c 2 + ⋯ + c N ) / N = r ^ c ^ \begin{align} \frac{r}{c} &= \frac{r_{1}+r_{2}+\cdots+r_{N}}{c_{1}+c_{2}+\cdots+c_{N}} \\ &= \frac{(r_{1}+r_{2}+\cdots+r_{N})/N}{(c_{1}+c_{2}+\cdots+c_{N})/N} = \frac{\hat{r}}{\hat{c}} \end{align} cr=c1+c2+⋯+cNr1+r2+⋯+rN=(c1+c2+⋯+cN)/N(r1+r2+⋯+rN)/N=c^r^
所以衰减指数本身包含了语料库的总体。同时,只有当 r i r_{i} ri 与 c i c_{i} ci 成对地接近时候,乘法性质的惩罚因子相对较小;如果 r i < < c i r_{i} << c_{i} ri<<ci 时候,惩罚因子就会变得非常大。
BLUE 总结
We take the geometric mean of the test corpus’ modified precision scores and then multiply the result by an exponential brevity penalty factor. Currently, case folding is the only text normalization performed before computing the precision.
We first compute the geometric average of the modified n n n -gram precisions, p n p_{n} pn, using n n n -gram up to length N N N and positive weights w n w_n wn summing to one.
Next, let c c c be the length of the candidate translation and r r r be the effective reference corpus length.
We compute the brevity penalty B P BP BP.
B P = { 1 , if c > r e ( 1 − r c ) , if c ≤ r (2) BP=\begin{cases} 1\text{, if }c>r \\ e^{(1-\frac{r}{c})}\text{, if }c\le r \\ \end{cases}\tag{2} BP={1, if c>re(1−cr), if c≤r(2)
Then, B L E U = B P ⋅ exp ( ∑ i = 1 n w n log p n ) BLEU=BP\cdot \exp(\sum_{i=1}^{n}w_{n}\log p_{n}) BLEU=BP⋅exp(∑i=1nwnlogpn) .The ranking behavior is more immediately apparent in the log domain.
log B L E U = min { 0 , 1 − r c } + ∑ i = 1 n w n log p n (3) \log{BLEU}=\min\{0,1-\frac{r}{c}\}+\sum_{i=1}^{n}w_{n}\log p_{n}\tag{3} logBLEU=min{0,1−cr}+i=1∑nwnlogpn(3)
In our baseline, we use N N N = 4 and uniform weights w n = 1 N w_n = \frac{1}{N} wn=N1 .
取测试语料库修改后的 n n n - gram 精度分数的几何平均值,然后将结果乘以指数简洁惩罚因子。大小写折叠是计算精度之前执行的唯一文本规范化。
-
计算修改后的 n n n -gram 精度 p n p_{n} pn 的几何平均值,使用 n n n -gram 的长度为 N N N 且正权重 w n w_n wn 总和为 1。
-
令 c c c 为候选翻译的长度, r r r 为有效参考语料库长度:计算简洁性惩罚 B P BP BP。
B P = { 1 , if c > r e ( 1 − r c ) , if c ≤ r BP=\begin{cases} 1\text{, if }c>r \\ e^{(1-\frac{r}{c})}\text{, if }c\le r \\ \end{cases} BP={1, if c>re(1−cr), if c≤r -
计算 B L E U BLEU BLEU 。
B L E U = B P ⋅ exp ( ∑ i = 1 n w n log p n ) (4) BLEU=BP\cdot \exp(\sum_{i=1}^{n}w_{n}\log p_{n})\tag{4} BLEU=BP⋅exp(i=1∑nwnlogpn)(4)
也可以计算 B L E U BLEU BLEU 的对数值,这样更简单!
log B L E U = min { 0 , 1 − r c } + ∑ i = 1 n w n log p n (5) \log{BLEU}=\min\{0,1-\frac{r}{c}\}+\sum_{i=1}^{n}w_{n}\log p_{n}\tag{5} logBLEU=min{0,1−cr}+i=1∑nwnlogpn(5) -
在我们的基线中,使用 N N N = 4 也就是至多 4 4 4 - gram 精度和统一权重 w n = 1 N = 1 4 w_n = \frac{1}{N}=\frac{1}{4} wn=N1=41 。
BLEU 评估
-
很少有机器翻译的句子能达到1分,除非它们与参考人类专业翻译完全相同。
即使是人工翻译也不一定会得到1分。
这也就能体现这个评估系统能显著区分“人-人”、“人-机”和“机-机”的翻译能力。
-
每个句子的参考人类专业翻译越多,得分就越高。
参考人类专业翻译越多,就意味着机器翻译出罕见词语时候也有更大的可能被匹配到,此外每个单词可能出现的频率也会更高,那么精度自然就高。
On a test corpus of about 500 sentences (40 general news stories), a human translator scored 0.3468 against four references and scored 0.2571 against two references.
-
作者通过 t 检验验证了自己的评估系统是可靠的。
Since a paired t-statistic of 1.7 or above is 95% significant, the differences between the systems’ scores are statistically very significant.
The reported variance on 25-sentence blocks serves as an upper bound to the variance of sizeable test sets like the 500 sentence corpus.
由于配对 t 统计量为 1.7 或以上的显着性为 95%,因此系统分数之间的差异在统计上非常显着。
25 个句子块上报告的方差可作为大型测试集(如 500 个句子语料库)方差的上限。
-
作者回答了:究竟多少参考人类翻译句子才能满足?
作者通过随机选择 4 个参考翻译之一作为 40 个故事中每个故事的单个参考来模拟单参考测试语料库。结果发现:提出的评估系统保持与多个参考相同的排名顺序。
这一结果表明,可以使用带有单个参考翻译的大型测试语料库,前提是这些翻译并非全部来自同一译者,这样才能保持风格非单一,因为单一风格可能会造成词汇、词位置等存在偏差。这样也为后续的评估带来便利,倘若多个参考翻译,反而又耗时耗力了。
BLEU 与人类参与的评估进行对比
把单语组分数在5个系统上的两个参考翻译的人工评估分数作为样本点,BLEU分数的函数进行线性回归。
结果显示:高相关系数为0.99,表明BLEU能很好地跟踪人类的判断。
即使是在双语组,也就是中英都能认识的双语非专业人类中进行评估,相关系数为0.96。
- BLEU 评估系统可以跟人类评估成良好的相关,轨迹走势大体一致;
- 人类翻译与机器翻译在当时(2002)年还是相差甚远。
维基百科介绍
BLEU (bilingual evaluation understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another.
BLEU 本质是一个算法,它是用来评估从一个自然语言经过机器翻译成另一个自然语言下的文本质量。
Quality is considered to be the correspondence between a machine’s output and that of a human: “the closer a machine translation is to a professional human translation, the better it is” – this is the central idea behind BLEU.
一致性原则,如果机器翻译出的内容与人类专业翻译的越相近,那么这样的机器翻译内容质量就越好。
Invented at IBM in 2001, BLEU was one of the first metrics to claim a high correlation with human judgements of quality, and remains one of the most popular automated and inexpensive metrics.
BLEU 于2001年在 IBM 发明。BLEU 是最早表明与人类质量判断高度相关的指标之一,并且仍然是最受欢迎的自动化和廉价指标之一。因为 BLEU 本质是一个算法(实际上就是一个公式),因此可以编程实现自动化评判;至于廉价在于其自动评判的人工成本少的原因(在较大的文本数据集上只需要一条人类专家级参考翻译即可,但是需要不同的专家都参与一部分进行翻译)。
Scores are calculated for individual translated segments—generally sentences—by comparing them with a set of good quality reference translations. Those scores are then averaged over the whole corpus to reach an estimate of the translation’s overall quality. Intelligibility or grammatical correctness are not taken into account.
通过将各个机器翻译片段(通常是句子,实际就是 n n n - gram)与一组高质量的参考翻译进行比较来计算分数。然后对整个语料库的这些分数进行平均,以估计翻译的整体质量。比如说,整个语料库抽取 10000 条句子,投入模型进行机器翻译,然后得到结果与这 10000 条句子的参考翻译进行对比,用算法得出分数;因为是抽样的得到的,因此可以取平均值来对整个语料库进行估计。不考虑可理解性或语法正确性,这是因为对比的句子是“人类专业的翻译”,这里面就包含了可理解性和语法正确性。
BLEU’s output is always a number between 0 and 1. This value indicates how similar the candidate text is to the reference texts, with values closer to 1 representing more similar texts. Few human translations will attain a score of 1, since this would indicate that the candidate is identical to one of the reference translations. For this reason, it is not necessary to attain a score of 1. Because there are more opportunities to match, adding additional reference translations will increase the BLEU score.
BLEU 的输出始终是 0 到 1 之间的数字。该值表示候选文本(机器翻译出的文本)与参考文本(人类专业翻译出的文本)的相似程度,值越接近 1 表示文本越相似。很少有人工翻译能够获得 1 分,因为这表明候选翻译与参考翻译之一相同。因此,没有必要获得 1 分。因为有更多匹配的机会,添加额外的参考翻译会增加 BLEU 分数。
参考文中公式 ( 1 ) − ( 5 ) (1)-(5) (1)−(5) 。
补充内容
参考网页 。
BLEU scores are often stated on a scale of 1 to 100 to simplify communication but should not be confused with the percentage of accuracy.
BLEU 分数通常以 1 到 100 的等级表示,以简化沟通,但不应与准确性百分比混淆。
Even two competent human translations of the exact same material may only score in the 0.6 or 0.7 range as they likely use different vocabulary and phrasing. We should be wary of very high BLEU scores (in excess of 0.7) as it is likely we are measuring improperly or overfitting.
即使是完全相同材料的、两个能力相同的人工翻译也可能只能在 0.6 或 0.7 范围内,因为人工翻译也可能使用不同的词汇和措辞。此外,还需要警惕非常高的 BLEU 分数(超过 0.7),因为我们很可能测量不当或过度拟合。这也说明人工翻译的顶级水平大概就是 0.7 左右。