千年密码新解读，DeepMind 开发 Ithaca 破译希腊铭文

铭文、碑刻是过去文明的思想、文化和语言的体现。金石学家破译千年前的密码，需要完成文本修复、时间归因和地域归因三大任务。

主流的研究方式是「字符串匹配」，即凭借记忆或查询语料库匹配字型相似的铭文，这导致了结果的混淆和误判。

为此，DeepMind 和威尼斯福斯卡里大学联合开发了 Ithaca，利用 AI 帮助人类学者破译希腊铭文。

作者 | 加零

编辑 | 雪菜、三羊

金石学，是研究金石铭文、碑刻和古代铭文的学科，连接着过去文明的思想、文化和语言。目前，学界面临着一个重要问题：如何深入研究和理解这些遗产？

通常意义上，解读铭文碑刻需要金石学家完成以下 3 个基本任务：

完成这些任务，金石学家需要结合上下文和现有语料库，开展大量比对研究。虽然数字语料库的出现能一定程度减少研究人员的负担，但其采取的字符串匹配方式，往往导致结果的混淆和误判。同时由于年代久远，铭文多有受损和遗失，使得任务愈发复杂。

在这里插入图片描述

铭文修复图示

而 AI 善于发现并运用复杂的统计模式，对人难以处理的大批量数据进行分析。因此，DeepMind 和威尼斯福斯卡里大学 (Ca’ Foscari University of Venice) 的研究者联合开发了 Ithaca，旨在协助金石学家进行文本修复、时间归因和地域归因的工作。

实验证实，Ithaca 文本修复工作的准确率达到 62%，时间归因误差在 30 年内，地域归因准确率达到 71%，且具有很好的协同性。相关论文已发表于「Nature」。

在这里插入图片描述

实验过程

研究者们基于帕卡德人文研究所的可搜索希腊铭文公共数据集 PHI 开展研究。

注：PHI 全称 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset

为了便于机器操作，研究者们对 PHI 中的文本进行过滤，为选择的文本分配数字 ID、相应的标注地点和时间信息，最终得到 I.PHI 数据集。

I.PHI 数据集是目前最大的机器可操作铭文数据集，包含 78,608 个铭文。

在这里插入图片描述

I.PHI 数据集示例

文本修复：采用交叉熵损失函数，掩盖输入文本的部分内容，训练 Ithaca 模型预测被掩盖的字符；
时间归因：以 10 年为间隔，Ithaca 将公元前后 800 年离散为具有相等概率的时间段，称为目标概率分布。采用 Kullback-Leibler 散度，最小化预测概率分布和目标概率分布之间的差异；
地域归因：使用交叉熵损失函数，将地域区域元数据作为目标标签，应用平滑系数 10% 的标签平滑技术避免过拟合。

基于此，Ithaca 在谷歌云平台上的 128 个 TPU v4 pod 上开展了一周的训练，batch size 为 8,192 篇文本，使用 LAMB 优化器以 3 × 10-4 的学习率优化 Ithaca 参数。

在这里插入图片描述

Ithaca 模型任务处理流程

Ithaca 模型的结构可总结为以下 4 部分：

输入 (Inputs)：将输入文本作为字符和单词共同处理，保证 Ithaca 既可以理解单个字符，又可以将其整合为单词进行上下文理解，未知、损坏的单词用特殊符号「unk」替代；
躯干 (Torso)：Ithaca 的躯干采用叠加 Transformer 神经网络架构，它使用一种注意力机制 (attention mechanism) 来衡量输入的字符、单词对模型决策过程的影响。

在躯干部分，Ithaca 将输入文本与位置信息结合，标准化处理为一个长度等于输入字符数的序列，这个序列中每个项目是一个 2,048 维的嵌入向量。该序列被传输给 3 个不同的任务 head；

任务头(Task heads)：Ithaca 有 3 个不同的任务 head，每个 head 由一个浅前馈神经网络组成，专门处理文本修复、时间归因和地域归因任务。
输出(Outputs)：3 个任务 head 分别输出对应结果。

在这里插入图片描述

Ithaca 输出结果

文本修复：Ithaca 预测了 3 个缺失的字符，同时提供了一套按概率排序的前 20 名解码预测 (上图 a)；
地域归因：Ithaca 把输入的文字分为 84 个地区，并用地图和柱状图直观地实现可能的地区预测排名表 (上图 b)；
时间归因：为扩大时间归因任务的可解释性，Ithaca 追溯到公元前 800 年到公元 800 年，预测了日期的分类分布，而不是输出一个单一的日期值 (上图 c)。

4 个对比机制

Ancient historian：人类学者使用训练集来寻找文本的相似之处，与 Ithaca 的结果对比；
Ancient historian and Ithaca：Ithaca 为金石学家提供 20 个可能的修复，评估 Ithaca 与人类学者的协同性；
Pythia：一个用于文本修复任务的序列到序列递归神经网络 (a sequence-to-sequence recurrent neural network)，评价 Ithaca 的文本修复性能；
Onomastics：研究人员使用希腊人名在时间和空间上的已知分布，完成一组文本的时间和地域归因，评价 Ithaca 的时间和地域归因性能。

3 大评价指标

字符错误率 (CER, character error rate)：评价文本修复任务，计算最高预测修复序列和目标序列之间的归一化差异；
top-k accuracy：评价文本修复或地域归因任务，计算预测结果中概率最大的前 k 个结果包含正确标签的占比，常用 top 1 准确率；
distance metric (Methods)：评价时间归因任务，计算预测分布的平均值与真值区间 (ground-truth interval) 之间的年数距离。

实验结果

1. 文本修复

在这里插入图片描述