论文地址:
https://www.cs.toronto.edu/~graves/icml_2006.pdf
为了对应这个图,我们假设一种符合的模型情况:
英文OCR,37个类别(26个小写字母+10个汉字+空格),最大输出长度8个字符
模型预测结果是8*37的大小,换句话说就是,预测出来了8个字符,每个字符的37个类别的概率。
这时候我们就可以填表了,表中每个圆圈都是概率值,第一行第一列的数值就是,字符1是类别空格的概率,第二行第一列的数值就是,字符1是类别a的概率。
合法路径不唯一;优化目标是最大化“所有合法路径概率的和”。
(一个合法路径就是一种预测结果为正确的情况,每一个合法路径上的概率相乘就是这个路径的概率。)
采用递归的方式计算这个概率和,递归表格中每个元素该怎么求,后续补充
优秀博客:
CTC Loss 数学原理讲解:Connectionist Temporal Classification-CSDN博客