千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

铭文、碑刻是过去文明的思想、文化和语言的体现。金石学家破译千年前的密码,需要完成文本修复、时间归因和地域归因三大任务。

主流的研究方式是「字符串匹配」,即凭借记忆或查询语料库匹配字型相似的铭文,这导致了结果的混淆和误判。

为此,DeepMind 和威尼斯福斯卡里大学联合开发了 Ithaca,利用 AI 帮助人类学者破译希腊铭文。

作者 | 加零

编辑 | 雪菜、三羊

金石学,是研究金石铭文、碑刻和古代铭文的学科,连接着过去文明的思想、文化和语言。目前,学界面临着一个重要问题:如何深入研究和理解这些遗产?

通常意义上,解读铭文碑刻需要金石学家完成以下 3 个基本任务:

  • 文本修复 (text restoration):补充文本中缺失的部分;
  • 时间归因 (chronological attribution):确定铭文写作的时间;
  • 地域归因 (geographical attribution):确定铭文写作的初始地点。

完成这些任务,金石学家需要结合上下文和现有语料库,开展大量比对研究。虽然数字语料库的出现能一定程度减少研究人员的负担,但其采取的字符串匹配方式,往往导致结果的混淆和误判。同时由于年代久远,铭文多有受损和遗失,使得任务愈发复杂。

在这里插入图片描述

铭文修复图示

而 AI 善于发现并运用复杂的统计模式,对人难以处理的大批量数据进行分析。因此,DeepMind 和威尼斯福斯卡里大学 (Ca’ Foscari University of Venice) 的研究者联合开发了 Ithaca,旨在协助金石学家进行文本修复、时间归因和地域归因的工作。

实验证实,Ithaca 文本修复工作的准确率达到 62%,时间归因误差在 30 年内,地域归因准确率达到 71%,且具有很好的协同性。相关论文已发表于「Nature」。

在这里插入图片描述

相关成果发表在「Nature」

获取论文:

https://www.nature.com/articles/s41586-022-04448-z

Ithaca 的相关代码已开源在 GitHub 平台,金石学家也可利用公共界面开展研究。

源代码:https://GitHub.com/deepmind/Ithaca

公共界面:https://Ithaca.deepmind.com

实验过程

数据集:机器可操作铭文集 I.PHI

研究者们基于帕卡德人文研究所的可搜索希腊铭文公共数据集 PHI 开展研究。

注:PHI 全称 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset

为了便于机器操作,研究者们对 PHI 中的文本进行过滤,为选择的文本分配数字 ID、相应的标注地点和时间信息,最终得到 I.PHI 数据集。

I.PHI 数据集是目前最大的机器可操作铭文数据集,包含 78,608 个铭文

在这里插入图片描述

I.PHI 数据集示例

算法训练针对 3 大任务开展训练

  1. 文本修复:采用交叉熵损失函数,掩盖输入文本的部分内容,训练 Ithaca 模型预测被掩盖的字符;

  2. 时间归因:以 10 年为间隔,Ithaca 将公元前后 800 年离散为具有相等概率的时间段,称为目标概率分布。采用 Kullback-Leibler 散度,最小化预测概率分布和目标概率分布之间的差异;

  3. 地域归因:使用交叉熵损失函数,将地域区域元数据作为目标标签,应用平滑系数 10% 的标签平滑技术避免过拟合。

基于此,Ithaca 在谷歌云平台上的 128 个 TPU v4 pod 上开展了一周的训练,batch size 为 8,192 篇文本,使用 LAMB 优化器以 3 × 10-4 的学习率优化 Ithaca 参数。

模型结构Ithaca 模型包括 4 部分

在这里插入图片描述

Ithaca 模型任务处理流程

Ithaca 模型的结构可总结为以下 4 部分:

  1. 输入 (Inputs):将输入文本作为字符和单词共同处理,保证 Ithaca 既可以理解单个字符,又可以将其整合为单词进行上下文理解,未知、损坏的单词用特殊符号「unk」替代;

  2. 躯干 (Torso):Ithaca 的躯干采用叠加 Transformer 神经网络架构,它使用一种注意力机制 (attention mechanism) 来衡量输入的字符、单词对模型决策过程的影响。

在躯干部分,Ithaca 将输入文本与位置信息结合,标准化处理为一个长度等于输入字符数的序列,这个序列中每个项目是一个 2,048 维的嵌入向量。该序列被传输给 3 个不同的任务 head;

  1. 任务头(Task heads):Ithaca 有 3 个不同的任务 head,每个 head 由一个浅前馈神经网络组成,专门处理文本修复、时间归因和地域归因任务。

  2. 输出(Outputs):3 个任务 head 分别输出对应结果。

在这里插入图片描述

Ithaca 输出结果

  • 文本修复:Ithaca 预测了 3 个缺失的字符,同时提供了一套按概率排序的前 20 名解码预测 (上图 a);
  • 地域归因:Ithaca 把输入的文字分为 84 个地区,并用地图和柱状图直观地实现可能的地区预测排名表 (上图 b);
  • 时间归因:为扩大时间归因任务的可解释性,Ithaca 追溯到公元前 800 年到公元 800 年,预测了日期的分类分布,而不是输出一个单一的日期值 (上图 c)。

模型训练结果

综合比对Ithaca 具有优越的性能

4 个对比机制

  1. Ancient historian:人类学者使用训练集来寻找文本的相似之处,与 Ithaca 的结果对比;

  2. Ancient historian and Ithaca:Ithaca 为金石学家提供 20 个可能的修复,评估 Ithaca 与人类学者的协同性;

  3. Pythia:一个用于文本修复任务的序列到序列递归神经网络 (a sequence-to-sequence recurrent neural network),评价 Ithaca 的文本修复性能;

  4. Onomastics:研究人员使用希腊人名在时间和空间上的已知分布,完成一组文本的时间和地域归因,评价 Ithaca 的时间和地域归因性能。

3 大评价指标

  1. 字符错误率 (CER, character error rate):评价文本修复任务,计算最高预测修复序列和目标序列之间的归一化差异;

  2. top-k accuracy:评价文本修复或地域归因任务,计算预测结果中概率最大的前 k 个结果包含正确标签的占比,常用 top 1 准确率;

  3. distance metric (Methods):评价时间归因任务,计算预测分布的平均值与真值区间 (ground-truth interval) 之间的年数距离。

实验结果

1. 文本修复

在这里插入图片描述

文本修复任务

a:原始铭文;

b:Rhodes-Osborne 修复后的铭文;

c:Pythia 修复版,与 Rhodes-Osborne 版有 74 处不匹配;

d:Ithaca 修复版,与 Rhodes-Osborne 版有 45 处不匹配;

图中修复正确的部分由绿色表示,错误用红色突出表示。

原始铭文 (IG II² 116) 缺失 378 个字符,以 Rhodes-Osborne 在 2003 年完成的修复 (图 b) 为基准,Ithaca 的 CER 为 26.3%,top 1 准确率达到 61.8%。

与金石学家相比,Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名预测准确率为78.3%,比 Pythia 高 1.5 倍。

2. 地域归因

在这里插入图片描述

地域归因任务

地域归因任务中,Ithaca 达到了 70.8% 的 top 1 准确率和 82.1% 的 top 3 准确率。 上图表示 Ithaca 将 manumission 铭文正确的归因到了 Delphi 地区。

3. 时间归因

在这里插入图片描述

时间归因任务

对于时间归因任务,人类专家预测的平均值为 144.4,中位数为 94.5 年,而 Ithaca 的预测与真值区间 (ground-truth interval) 平均差距为 29.3 年,中位数的差距仅为 3 年。

综合 Ithaca 在三项任务中的表现,结果整理如下:

相较于人类专家和 Pythia,Ithaca 在 3 大任务上都展现了优越的性能。

当人类专家与 Ithaca 协同时,达到了 18.3% 的 CER 和 71.7% 的 top 1 准确率,相比金石学家单独开展工作呈现出 3.2 倍和 2.8 倍的改善,相比 Ithaca 独自完成任务也有显著改善,展现了 Ithaca 优越的协同性

在这里插入图片描述

Ithaca 的实验结果对比

时间归因:Ithaca 解决争议问题

部分铭文的时间归因一直存在争议,传统时间归因采用的 sigma 测年标准 (sigma dating criterion) 无法保证准确,金石学家无法确定这些铭文是在公元前 446/5 年之前还是之后。

如下图的铭文,依照传统方法追溯到公元前 446/5 年,但最近被重新追溯到公元前 424/3 年。

在这里插入图片描述

一条争议铭文(局部)

这组有争议的铭文存在于 I.PHI 数据集中,Ithaca 的时间归因结果推翻了基于 sigma 测年标准的传统历史解读,与新发现的基础事实平均相差 5 年。

由此证明,Ithaca 可以帮助历史学家缩小日期范围,提高历史事件时间归因的精确度。

AI 与人类:1 + 1 > 2 ?

Ithaca 的结果输出部分非常有趣,它并不会输出单一的答案,而是给出多种可能的结果以供研究人员选择。

这值得其他 AI 开发者和使用者借鉴,与其依赖 AI 的输出,不如利用 AI「探路」,排除一些错误答案,拓展自主思考的深度和广度。

将 AI 的计算能力与人类的创造性和深度思考相结合,Ithaca 帮助我们开拓了一种与 AI 携手合作的范式。

未来,我们期待 AI 与人类学者协同并进,实现「1+1 > 2」的目标。

参考文献:

https://www.nature.com/articles/s41586-022-04448-z

https://www.nature.com/articles/d41586-023-03212-1

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/140516.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

酷柚易汛ERP - 其他出库单操作指南

1、应用场景 处理其他非销售类型的出库单据,比如内部领用福利、赔偿、借出、领用材料、以货抵债等不参与销售管理的出库类业务。 2、主要操作 2.1 新增其他出库单 打开【仓库】-【其他出库单】,新增单据 出库单位成本及出库成本不能录入;…

msvcr71.dll丢失多种解决方法解析,全方位解读msvcr71.dll文件

在日常使用电脑时,你是否曾遇到过“msvcr71.dll文件丢失”的错误提示?别着急,本文将为你详细介绍msvcr71.dll丢失的解决方法,让你迅速解决这一烦恼。 一.多种msvcr71.dll丢失解决方法 修复方法一:重新安装相应软件 首先&#xf…

推荐一份适合所有人做的副业,尤其是程序员。

我建议每个人都去尝试一下网上接单,这是一个门槛低、类型多样的方式,尤其适合程序员! 在接单平台上,你可以看到各种类型的兼职。以freelancer为例,你可以在这里找到技术、设计、写作等类型的兼职,只要发挥…

Linux SSH免密登录

目录 简介 创建Linux用户和用户组 配置LINUX静态IP 编辑IP映射 SSH免密登录配置 登录测试 简介 SSH(Secure shell)是可以在应用程序中提供安全通信的一个协议,通过SSH可以安全地进行网络数据传输,它的主要原理是利用非对称加密…

常见光模块的封装有哪些呢?

光模块的封装,保障了光通信的稳定和可靠性。本文介绍几种常见的光模块的封装类型。 19封装–焊接型光模块,一般速度不高于千兆,多采用SC接口。 SFP封装:SFP(Small form-factor pluggable)意思是小型可拔插…

金蝶云星空将子窗体的内容传回到父窗体的开发实现

文章目录 金蝶云星空将子窗体的内容传回到父窗体的开发实现前置任务父窗体打开子窗体时传入回调函数子窗体设置返回参数父窗体接收参数在回调函数根据参数做一些逻辑处理 金蝶云星空将子窗体的内容传回到父窗体的开发实现 前置任务 金蝶云星空表单插件实现父窗体打开子窗体&a…

合合信息亮相新加坡科技周——Big Data AI World Expo展示AI驱动文档数字化的前沿能力

展会规模背景: 2023年10月11日-12日,合合信息在TECH WEEK SINGAPORE(新加坡科技周)亮相,并在人工智能世界博览会(Big Data & AI World)展示合合信息核心人工智能文字识别技术能力。合合信息…

无人机航迹规划:五种最新智能优化算法(KOA、COA、LSO、GRO、LO)求解无人机路径规划MATLAB

一、五种算法(KOA、COA、LSO、GRO、LO)简介 1、开普勒优化算法KOA 开普勒优化算法(Kepler optimization algorithm,KOA)由Mohamed Abdel-Basset等人于2023年提出。五种最新优化算法(SWO、ZOA、EVO、KOA、…

上传文件大小限制报错

做了一个上传文件的功能,前端通过文件流程的形式调用后台接口。几百k的文件能成功,几M的文件会失败。原因有二 第一是被nginx限制,请求也无法转发到应用服务器里面(也就是tomcat看不到请求日志只有nginx日志能看到请求&#xff0…

设计模式之建造者(Builder)

用来构建复杂对象 分离复杂对象的构建和表示 同样的构建过程可以创建不同的表示 当有一个复杂的对象,构建它的时候,比较复杂 例如,构建一个对象,要传入50个参数,可以先构建part1,再构建part2…最后调用bu…

Git-工作流

前言 一、工作流概述二、Git flow1.主要流程2.优缺点3.适用场景 三、Github flow1.主要流程2.优缺点3.适用场景 四、Gitlab flow1.主要流程2.优缺点3.适用场景 总结参考 一、工作流概述 开发人员通过Git可以记录和追踪代码的变化,包括添加、删除和修改文件。如果是…

【Python 算法】双向迪杰斯特拉算法 Python实现

双向迪杰斯特拉算法Python实现 文章目录 双向迪杰斯特拉算法Python实现简介双向迪杰斯特拉算法优势局限性算法的基本步骤终止条件 基本步骤伪代码Python 实现 简介 双向迪杰斯特拉算法(Bi Directional Dijkstra Algorithm)是一种用于在加权图中查找两个…

红色旅游AR互动体验将景区推向更广泛的市场

AR技术的出现使得各展厅观众可以在虚拟和现实的层面进行互动,利用AR和VR技术,将展览地点扩展到特定的虚拟领域,实现了"无触觉"交互体验,增强现实技术和展馆的对接更加激发人们了解新事物的兴趣。 一、AR景区&#xff1a…

【03】Istio Gateway示例配置

3.1 开放kiali至集群外部 首先将istio-inressateway暴露集群外部; 在node02的ens33网卡上面有多余的ip地址,将该地址绑定在igressgateway的svc 上面。 kubectl edit svc istio-ingressgateway -n istio-system定义kiali的ingress gateway的资源配置清单 apiVersion:…

第十六章,反射与注解例题

package 例题; import java.lang.reflect.Constructor;class 例题1Demo {//变量String s;int i, i2, i3;private 例题1Demo() {//无参构造方法}protected 例题1Demo(String s, int i) {//有参构造方法this.s s;this.i i;}public 例题1Demo(String... strings) throws NumberF…

堆排序(小根堆模板)

输入一个长度为 n 的整数数列,从小到大输出前 m 小的数。 输入格式 第一行包含整数 n 和 m。 第二行包含 n 个整数,表示整数数列。 输出格式 共一行,包含 m 个整数,表示整数数列中前 m 小的数。 数据范围 1≤m≤n≤10^5&am…

Centos8上部署Zabbix5.0

1.关闭Selinux及防火墙,避免Web页面无法访问。 setenforce 0 vim /etc/selinux/config 修改“SELINUX”等号后的内容为disabled SELINUXdisabled\\关闭并关闭开机自启 systemctl stop firewalld systemctl disable firewalld 2.配置Centos8本地yum源。 mkdir /mn…

『MySQL快速上手』-⑦-内置函数

文章目录 1.日期函数1.1 获得年月日1.2 获得时分秒1.3 获得时间戳1.4 在日期的基础上加日期1.5 在日期的基础上减去时间1.6 计算两个日期之间相差多少天案例1案例22.字符串函数案例3.数学函数4.其他函数1.日期函数 1.1 获得年月日

基于Python美化图片亮度和噪点

支持添加噪点类型包括:添加高斯噪点、添加椒盐噪点、添加波动噪点、添加泊松噪点、添加周期性噪点、添加斑点噪点、添加相位噪点,还提供清除噪点的功能。 我们先看一下实测效果:(test.jpg为原图,new.jpg为添加后的图片…

Rust结构体的定义和实例化

1.结构体特点 Rust的结构体跟元组类型比较类似,它们都包含多个相关的值。和元组一样,结构体的每一部分可以是不同类型。但不同于元组,结构体需要命名各部分数据以便能清楚的表明其值的意义。由于有了这些名字,结构体比元组更灵活&#xff1a…