文章目录
- 一、摘要
- 二、简介
- 三、相关工作
- 3.1 基于概念的解释
- 3.2 强化学习中生成解释
- 3.3 国际象棋与人工智能
- 四、什么是概念?
- 五、发掘概念
- 5.1 挖掘概念向量
- 5.1.1 静态概念的概念约束
- 5.1.2 动态概念的概念约束
- 5.2 过滤概念
一、摘要
人工智能(AI)系统取得了显着进步,达到了超人类的水平跨不同领域的表现。这为我们提供了一个机会,通过利用这些高性能人工智能系统中编码的隐藏知识来进一步加深人类知识并提高人类专家的表现。然而,这些知识通常很难提取,也可能很难理解或学习。在这里,我们通过提出一种新方法来证明这是可能的,该方法允许我们在 AlphaZero 中提取新的国际象棋概念,AlphaZero 是一个人工智能系统,可以在没有人类监督的情况下通过自我对弈掌握国际象棋游戏。我们的分析表明,AlphaZero 可能编码超出人类现有知识的知识,但最终不会超出人类掌握的范围,并且可以成功地从中学习。在一项人类研究中,我们表明顶级人类专家可以学习这些概念,因为四位顶级国际象棋大师在解决所提出的概念原型位置方面表现出了改进。这标志着通过利用技术推进人类知识前沿的重要的第一个里程碑人工智能;这一发展可能会产生深远的影响,并帮助我们塑造在许多人工智能应用程序中与人工智能系统交互的方式。
二、简介
人工智能 (AI) 系统通常被视为解决问题的机器;它们可以完成人类已经能够完成的工作,但效率更高、工作量更少,这在多个领域带来了明显的好处。在本文中,我们追求一个不同的目标:将人工智能系统视为学习机器,并要求它们教会我们其决策背后的基本原则,以扩展和补充我们的知识。我们可以想象向机器学习的许多好处。例如,虽然能够比人类专家提供更准确的癌症诊断或有效的个性化治疗的系统很有用,但将其决策背后的基本原理转移给人类医生不仅可以带来医学进步,还可以利用人类医生的实力和泛化能力以实现新的突破。在人工智能系统的能力达到或超过人类专家(超人类人工智能系统)的各个领域,存在着巨大的未开发机会。这项工作是开发工具和方法的第一步,这些工具和方法使我们能够发现高性能人工智能系统中隐藏的知识,并通过帮助人类专家进一步提高技能和理解来增强他们的能力。
人工智能系统的超人类能力可能以几种不同的方式出现:机器的纯粹计算能力、对现有知识的新推理方式或我们尚不具备的超人类知识。这项工作主要针对最后两种情况。为了简单起见,我们从现在开始将两者都称为超人类知识。从研究的角度来看,这意味着什么?人类表征空间 (H)与机器表征空间 (M) 有一些重叠(见图 1 (Kim, 2022))。表征空间构成了知识和能力的基础,并产生了我们最终感兴趣的知识和能力。因此,我们可以互换地使用表征空间和知识——粗略地说,H代表人类知道的东西,M代表机器知道的东西。
有些事情是人工智能和人类都知道的 (M ∩ H),有些事情只有人类知道 (H −M),有些事情只有机器知道 (M −H)。大多数现有的研究工作只关注(M∩H),例如,可解释性试图将M硬塞进(M∩H),但取得的成功有限(Adebayo等人,2018;聂等人,2018; Bilodeau 等人,2022)。我们相信,(M − H) 所代表的知识差距是通过识别高性能人工智能系统中的新概念和现有概念之间的新联系来赋予人类权力的关键。我们已经有证据表明,某些人工智能世代用最初难以理解的想法吸引了人类的想象力。人工智能历史上的一个突出例子是 AlphaGo 在与李世石的比赛中下的第 37 步棋。这一举动让评论员和玩家感到完全惊讶,并且至今仍被作为机器独特知识的一个例子进行讨论。追求超人类知识的愿景最终是为了实现以人为中心的人工智能,以及一个人类主体和能力不屈居第二的世界。然而,问题是——这可能吗?
这项工作是发现超人类知识和 (M −H) 中现有知识的新联系的第一步。我们专注于一个几十年来一直激励着人工智能从业者、几个世纪以来一直吸引着人类想象力的领域:国际象棋游戏。国际象棋是验证集合 (M − H) 的存在性和有用性的绝佳场所,原因有很多:国际象棋知识已经发展了很长一段时间,并且与其他领域的前沿相比,基本事实更容易验证,例如科学或医学。我们还对人类专家和机器的游戏质量进行定量衡量,称为 Elo 评级(维基百科贡献者,2023a)。
自从深蓝与加里·卡斯帕罗夫的比赛以来,国际象棋引擎长期以来一直保持着超人水平。虽然早期的引擎是基于人类知识的,但 AlphaZero(Silver 等人,2017)(AZ)的出现表明,自学的深度学习模型可以在没有任何人类知识的情况下实现超人的国际象棋能力。然而,作为人类,我们还无法充分利用他们的知识。通过对 AZ 比赛的分析,人类手动提取了模式,例如其在侧翼使用 a4 或 h4 等动作的倾向(Sadler 和 Regan,2019)。然而,这仍然通过 H 的视角来分析 M,这种偏差限制了我们从 M ∩ H 中可以找到的东西。在这项工作中,我们的目标是通过促进向他人学习来迈出改变这一现状的第一步。AZ (M − H) 集合中的超人类知识。我们假设 (M − H) 存在,并且可以教给人类。
我们通过证明我们可以向四位人类顶级大师、世界上最好的国际象棋棋手教授新的国际象棋概念来验证我们的假设。此外,由于他们不可否认的实力和天赋,(M-H)可能落入维果茨基教育理论中的“最近发展区”:
“学习者在没有帮助的情况下可以做的事情与学习者在成人指导下或与更有能力的同伴合作可以做的事情之间的差距”。虽然沟通(M – H)可能需要新的语言(Kim,2022),但我们在这项工作中通过利用国际象棋冠军连接点并从国际象棋位置中出现的模式进行概括的能力来绕过这一需求。
通过分析 AZ 和人类游戏的潜在表示的跨度维度,我们找到了表明 (M − H) 存在的证据 (§4.2.2)。接下来,我们开发一个新的框架来搜索(M − H)中的概念,即挖掘 AZ 的超人类知识。在我们的框架中,我们:
• 开发一种在潜在空间中寻找无监督概念的新方法。通过使用
我们的方法发现完整的 AZ 机制,包括策略价值网络和 MCTS 树
激发国际象棋中一系列行动的动态概念。我们证明我们的方法可以以数据有效的方式找到概念的向量表示(第 4.1 节)。
• 确保概念新颖。通过谱分析,我们的框架仅选择包含 AZ 游戏与人类游戏相比向量空间特有信息的概念。1
• 确保概念是可教授的。我们开发了一种新的指标,用于评估概念是否可以教给另一个事先不了解该概念的 AI 代理(第 4.2.1 节)。通过这个指标,我们根据概念的信息量来选择概念(即对下游任务中的人工智能代理有用)。
• 通过图形分析深入了解新概念的含义,以揭示新概念与人类标记概念的关系。
在 (M − H) 中找到这些概念后,我们分析是否可以扩展人类表征空间 (H) 以包含这些新概念 (§6)。我们与四位世界顶级国际象棋特级大师和前世界冠军合作,通过学习典型例子来测试他们是否能够学习和应用这些概念。图 2 显示了概念原型的示例。在这里,大多数棋手会继续使用Rxh5在王边下棋。然而,AZ 找到了保持优势的唯一计划:Qc1,其想法是将棋子重新移动到后侧。图 2:概念原型示例。大多数棋手会选择 Rxh5,然而,AZ 下的是 Qc1,其想法是将棋子重新组合到后侧。更多详细信息请参见第 8.1 节。
Part of AZ’s MCTS calculations: 37.Qc1 Kg7 (37…Rb5 38.a4 Rb4 39.Ka2; 37…Qe5
38.Qc4 Be6 39.Nxe6+ fxe6 40.Qxc6) 38.Re1 Qe5 39.Rc2 Rb4 40.Ba4 Qd6 41.a3 Rd4 42.e5 Qd5 43.Bxc6 Qxc6 44.Nb3 White is better
我们的研究结果表明,与观察 AZ 的动作之前的表现相比,特级大师找到与 AZ 的选择一致的基于概念的动作的能力有所提高。此外,他们的定性反馈表明了对 AZ 计划的理解和赞赏。发现的概念通常以偏离人类传统国际象棋原理的方式结合和应用国际象棋概念。我们推测,人类和 AZ 玩法的差异可能源于他们在位置概念关系建立方式上的差异。虽然人类对哪些概念可能与特定的国际象棋位置相关存在先验偏见,但 AZ 已经形成了自己对概念和国际象棋位置的不受限制的理解,从而使其策略具有灵活性和创造力。
我们的论文结构如下。首先,我们在§2中总结了相关工作。接下来,我们在第 3 节中讨论概念的定义以及如何实施它。我们在第 4.1 节中介绍了查找概念并在第 4.2 节中过滤概念的方法,以确保概念信息丰富、可传授且新颖。
我们在第 5 节中展示了我们的方法在监督概念上的有效性和性能。最后,在第 6 节中,我们列出了人体实验方案和结果,并展示了我们的框架如何能够弥合 (M – H) 差距。我们在第 7 节中总结了我们的主要发现,并讨论了局限性和未来的工作。
三、相关工作
在这里,我们回顾了概念发现、强化学习系统的可解释性以及人工智能与国际象棋的交叉方面的相关先前工作。
3.1 基于概念的解释
与传统的特征或以数据为中心的可解释性方法相比(Ribeiro et al., 2016;伦德伯格和李,2017; Sundararajan 等人,2017; Koh 和Liang,2017),基于概念的方法使用高级抽象、概念,目的是提供模型解释来为人类从业者提供信息(Bau 等人,2017 年;Kim 等人,2018 年;Alvarez-Melis 和 Jaakkola) ,2018;Koh 等人,2020;白等人,2022;阿奇蒂巴特等人,2022; Crabb´e 和 van der Schaar,2022)。这些类型的解释被证明在科学和生物医学领域很有用(Graziani et al., 2018; Sprague et al., 2019; Clough et al., 2019; Bouchacourt and Denoyer, 2019; Yeche et al., 2019; Sreedharan等人,2020a;Schwalbe 和 Schels,2020;Mincu 等人,2021;Jia 等人,2022),其中专家的概念与个人的低级特征高度相关。
与本文提出的工作更一致的是,基于概念的解释方法已经在棋盘游戏代理中进行了研究,包括 Hex(Forde 等人,2022)和 Go(Tomlin 等人,2022)。建立概念和预测之间的因果关系并非易事,也是一个正在进行的研究主题(Goyal 等人,2019;Bahadori 和 Heckerman,2020;Wu 等人,2023)。
研究了基于概念的监督方法的缺点。当利用一组概念范例(探测数据集)时,Ramaswamy 等人。 (2023)表明不同的探测数据集可能会导致不一致的结论。此外,他们还表明,探测数据集中的概念数量超过了人类使用的概念数量。线性假设有其局限性(Chen 等人,2020;Soni 等人,2020),并且该概念的矢量与人类心智模型之间的忠实一致性在 Mahinpei 等人中受到了挑战。 (2021)。
还研究了超越监督概念和探测数据集的方法(Yeh 等人,2020 年;Ghorbani 等人,2019 年;Ghandeharioun 等人,2021 年),以发现模型所代表的概念,而不仅限于人类标记的概念。该概念是使用训练数据示例(Yeh 等人,2020;Ghorbani 等人,2019)或通过生成新数据(Ghandeharioun 等人,2021)来表达的。这项工作属于发现概念的方法,但其不同的目标是发现和教导人类新概念,而不是寻找现有的人类概念。
3.2 强化学习中生成解释
在强化学习 (RL) 方法中生成解释(Alharin 等人,2020;Heuillet 等人,2020;Glanois 等人,2021;Krajna 等人,2022;Vouros,2022;Milani 等人,2022;Dazeley等人,2023;Omidshafiei 等人,2022;Das 等人,2023)特别令人感兴趣,因为这些方法越来越多地部署在现实世界的应用中,并且与更传统的监督学习环境相比,解释要求有所不同。这是由于状态、动作和后续状态之间的时间依赖性,其中代理的历史、当前和未来状态动作序列可能与某些长期目标相关(Dazeley et al., 2023)。强化学习中的可解释性方法可以帮助识别与训练数据过度拟合、分布不均相关的代理问题
性能(Annasamy 和 Sycara,2019)和智能体间动态(Omidshafiei 等,2022)。
一些工作的重点是在表示学习中设计更具可解释性的模型架构和训练过程(Raffin et al., 2019, 2018; Lesort et al., 2019; Traor´e et al., 2019; Doncieux et al., 2020, 2018 )以及符号和关系方法(Sreedharan 等人,2020b;Garnelo 等人,2016;d’Avila Garcez 等人,2018;Zambaldi 等人,2018;Hazra 和 De Raedt,2023),其中可能涉及中间过程感知处理步骤,例如物体识别(Goel et al., 2018;Li et al., 2018)。不同的强化学习方法(基于价值、基于策略、基于模型、完全或部分可观察状态)(Alharin 等人,2020)可能适用于不同的可解释性方法或
其变体。同样,解释本身的范围也可能有所不同,例如,对个体代理行为或价值评估的局部解释,或对代理策略的总体高层解释(Zrihem 等人,2016 年;Sreedharan 等人,2020b;Topin 等人)等,2021)。 Yang 等人探讨了将解释视为确保一致性的奖励的重要性。 (2023)。
对于训练有素的 RL 系统,迫切需要事后 RL 可解释性方法。输入显着性图(Wang et al., 2016;Selvaraju et al., 2019;Greydanus et al., 2018;Mundhenk et al., 2020)和基于树的模型(Bastani et al., 2018;Roth et al., 2019;科彭斯等人,2019;刘等人,2019;瓦西克等人,2019; Madumal 等人,2020)是一种常见的方法。基于显着性的强化学习可解释性方法并非没有问题,因为它们可能会受到不可证伪性和认知偏差的影响(Atrey 等人,2019)以及可证明的错误结果(Bilodeau 等人,2022)。探索了通过轨迹可视化智能体记忆(Jaunet et al., 2020)或提取有限状态模型(Koul et al., 2018)来提高对智能体行为的理解,以及利用马尔可夫决策过程(Finkelstein et al., 2018)。 ,2022;Zahavy 等人,2016)生成解释或检测子目标或新兴结构(Rupprecht 等人,2019)。由于强化学习方法有时可能会学习虚假相关性,因此可解释性方法被用来帮助识别和解决因果混乱(Gajcin 和 Dusparic,2022),并使用反事实进一步加深我们的理解(Deshmukh 等人,2023 年;Olson 等人,2019 年)。
3.3 国际象棋与人工智能
几十年来,国际象棋一直是人工智能思想的试验台。早期的引擎是基于人类知识的,它们超人类的力量来自于它们的计算能力,这使得它们能够考虑比人类国际象棋棋手的能力高出几个数量级的变化。神经网络和基于强化学习的方法的引入旨在振兴该领域,从而导致计算机国际象棋引擎的大幅改进。这些进步在一定程度上受到了 AZ 在国际象棋及其变体中的突出成果的启发(Silver et al., 2018; Tomaˇsev et al., 2020; Tomaˇsevet al., 2022; Zahavy et al., 2023)和 Lc0 (LCZero)开发社区,2018),一个开源
重新实现原来的模型,仍然是计算机国际象棋最高水平的竞争。
由于与国际象棋引擎的交互在国际象棋棋手的准备和训练中发挥着关键作用,
可解释性有助于国际象棋棋手理解潜在的位置和战术主题。为此,之前的工作着眼于片段显着性(Gupta et al., 2020)、基于树的解释(Kerner, 1995)和自然语言(Jhamtani et al., 2018)。在国际象棋和语言的交叉点,最近提出了 ChessGPT(Feng et al., 2023)来弥合政策和语言的形态。 DecodeChess 是一个旨在从引擎搜索树中得出解释的软件项目(DecodeChess,2017)。
最近,AZ 已被证明可以在其网络中编码类似人类的概念(McGrath 等人,2022),并且还使用基于网络的 Stockfish 国际象棋引擎探索了概念探测技术(P´alsson 和 Bjöornsson,2023) )。先前对 AZ 中概念的研究没有考虑搜索和移动序列,并且很大程度上仅限于识别预先存在的人类概念。人们对人类玩家是否采用了 AZ 的想法提出了初步问题(Gonz´alez-D´ıaz 和 Palacios-Huerta,2022),因为一些突出的主题已在 Game Changer 中进行了详细分析(Sadler 和 Regan,2019)。最近,还表明 AZ 可能容易受到对抗性扰动的影响(Lan 等人,2022),这强调了更好地理解学习表征的必要性。
四、什么是概念?
概念有多种可能的定义——从人类可理解的高级特征到抽象概念。在这项工作中,我们将概念定义为知识单元。我们关注两个关键属性。首先,概念包含知识:有用的信息;在机器学习的背景下,我们认为这意味着它可以用来解决任务。
例如,考虑喙的概念。我们可以教算法或人(知识转移)什么是喙。如果人们掌握了喙的概念,他们就可以用它来识别鸟类。
其次,单位意味着最小化;它很简洁,不相关的信息已被删除。
有很多方法可以实现这个定义和属性,我们选择其中一种:展示一个概念可以转移给另一个代理来帮助他们解决任务(例如,遵循概念中表示的策略)。能够这样做意味着该概念是独立的并且对于任务有用。
我们如何表示概念?我们利用丰富的文献,假设概念在神经网络的潜在空间中线性编码(McGrath 等人,2022;Kim 等人,2018;Gurnee 等人,2023;Conneau 等人,2018;Tenney 等人) .,2019;南达,2023)。潜在空间是指神经网络激活后特征所跨越的空间。尽管我们的线性假设是一个强有力的假设,但它具有数量惊人的经验支持:线性探测和相关技术已经成功地从跨多个领域的神经网络中提取了广泛的复杂概念(McGrath 等人,2022;Kim 等人) .,2018;Gurnee 等人,2023;坦尼等人,2019;南达,2023)。尽管我们可能会错过非线性表示的概念,但我们仍然表明我们可以使用纯线性表示找到对我们的目标有用的概念。
我们的目标是在强化学习环境中发现哪些类型的概念?我们的目标是发现产生计划的概念,其中计划是针对一个或多个相关概念进行优化的一系列经过深思熟虑的行动。我们认为故意意味着存在根本原因。更具体地说,我们假设一项计划是由一个或多个概念驱动的。尽管各州计划的最终目标相同——最大化结果(获胜或平局)——但特定州的计划在此过程中将有更多针对具体情况的工具性目标,例如,在一场比赛中捕捉特定的部分。
有利地位,或最大化董事会控制权。我们假设相似背景下的计划将具有相似的工具性目标,从而产生相似的概念。
五、发掘概念
我们的方法可以概括为(1)使用凸优化挖掘代表 AZ 中概念的向量,(2)根据可教性(是否可转移到另一个 AI 代理)和新颖性(是否包含一些不存在的信息)来过滤概念。存在于人类游戏中)。然后,所得的概念向量集用于生成国际象棋谜题(国际象棋位置和解决方案),并将其呈现给人类专家(顶级国际象棋特级大师)进行最终验证。
5.1 挖掘概念向量
为了找到概念,我们开发了一种新方法,因为(1)模型输入是二进制和实值输入的混合(例如,显着图通常采用连续值作为输入,通常不适合二进制值)和(2)我们想要开发一个可解释性工具来分析 AZ 机制的两个部分——政策价值网络和 MCTS。利用网络和 MCTS 至关重要,因为每个组件在决定移动时发挥着不同但重要的作用(参见第 8.3 节)了解更多详情)。我们将概念发现表述为凸优化问题。使用凸优化框架并不新鲜。许多现有的寻找概念向量的方法,例如非负矩阵公式,通常可以近似为凸优化问题(Ding et al., 2008)。
对于我们想要找到的每个概念向量,我们制定一个单独的凸优化问题。正如第 3 节中提到的,我们将概念定义为知识单元。极简性是通过 L1 范数鼓励稀疏性来实现的(Tibshirani,1996)
m
i
n
∥
v
c
,
l
∥
1
min∥v_{c,l}∥_1
min∥vc,l∥1 使得概念约束成立, (1)
其中
v
c
,
l
∈
R
d
l
v_{c,l} ∈ R^{d_l}
vc,l∈Rdl 是存在于 l 层潜在空间中的向量,用于表示概念 c,
d
l
d_l
dl 是 l 层的维度。
我们概述了用于两种不同类型概念的概念约束:静态概念和动态概念。静态概念被定义为在单个状态中找到,而动态概念则在一系列状态中找到。自动驾驶中静态概念的一个例子是汽车位于高速公路上。动态概念是汽车正在加速。虽然我们的框架仅旨在发现动态概念,但我们使用静态概念来验证我们的方法。
5.1.1 静态概念的概念约束
静态概念被定义为仅涉及单个状态的概念。我们使用监督数据(标签指示状态是否包含概念 c)来学习静态概念向量。这些概念编码了人类知识,因此,我们可以使用它们来验证我们的方法。静态概念的一个例子是“空间”的概念,我们可以从单一状态推断出它。现在,假设我们有二元概念 2 并用 c(x) = 1 表示国际象棋位置 x 中概念 c(概念分数)的存在,否则 c(x) = 0。对于每个概念 c,我们可以将一组通用的国际象棋位置 X 分成正例 X +(存在该概念)和 X−(不存在该概念)
X
+
=
{
x
∈
X
:
c
(
x
)
=
1
}
X
−
=
{
x
∈
X
:
c
(
x
)
=
0
}
X^+ = \{x ∈ \mathbb X : c(x) = 1\} \\ X^- = \{x ∈ \mathbb X : c(x) = 0\}
X+={x∈X:c(x)=1}X−={x∈X:c(x)=0}
这些正例和负例使我们能够生成潜在表示的相应正例和负例(网络中的中间激活后表示)。函数
f
l
(
x
)
f_l(x)
fl(x) 在给定输入 x 的情况下生成第 l 层的激活:
Z
l
+
=
{
f
l
(
x
)
:
x
∈
X
+
}
Z
l
−
=
{
f
l
(
x
)
:
x
∈
X
−
}
Z^+_l = \{f_l(x) :x ∈ \mathbb X^+ \} \\ Z^-_l = \{f_l(x) :x ∈ \mathbb X^- \}
Zl+={fl(x):x∈X+}Zl−={fl(x):x∈X−}
其中
z
l
=
f
l
(
x
)
z_l = f_l(x)
zl=fl(x)表示通过将输入 x 通过网络在第 l 层获得的潜在表示。有关如何提取 zl 的更多详细信息,请参阅第 8.2 节。
凸优化目标是学习表示概念 c 的稀疏向量 vc,l 。我们假设来自 Z l + Z^+_l Zl+(存在概念的集合)的激活的内积 v c , l ⋅ z l v_{c,l} · z_l vc,l⋅zl 高于来自 Z l − Z^−_l Zl−(其中存在概念的集合)的激活这个概念不存在)。因此,公式变为
m i n ∣ ∣ v c , l ∣ ∣ 1 s u c h t h a t v c , l ⋅ z l + ≥ v c , l ⋅ z l − ∀ z l + ∈ Z l + , z l − ∈ Z l − min||v_{c,l}||_1 such that v_{c,l} · z^+_l ≥ v_{c,l} · z^{−}_{l} ∀ z^+_l ∈ Z^+_l, z^−_l ∈ Z^−_l min∣∣vc,l∣∣1suchthatvc,l⋅zl+≥vc,l⋅zl−∀zl+∈Zl+,zl−∈Zl− (2)
我们可以通过分割 X 来评估在监督设置中 vc,l 表示概念的效果如何分为两组: X t r a i n Xtrain Xtrain 和 X t e s t Xtest Xtest,然后 vc,l 仅使用 X t r a i n Xtrain Xtrain。然后我们测量的分数 X t e s t Xtest Xtest 中概念约束成立的元素。如果 vc,l 很好地代表了概念 c,我们期望概念约束保留从 Xtest 派生的先前未见过的激活。
5.1.2 动态概念的概念约束
动态概念被定义为在一系列状态中找到的概念。虽然 vc,l 是在策略值网络的激活空间中找到的,但我们使用蒙特卡罗树搜索 (MCTS) 统计来查找有意义的状态序列的候选者。 MCTS 从当前国际象棋位置 x0 生成可能的走法和后续响应的树(有关 MCTS 实现的详细信息参见 Schrittwieser 等人。 (2019))。对于我们的过程来说,确切的细节并不重要;重要的是 AZ 选择推出 X ≤ T + = ( x 1 + , x 2 + , x 3 + , . . , x T + ) X^+_{≤T} = (x^+_1, x^+_2, x^+_3, . . , x^+_T) X≤T+=(x1+,x2+,x3+,..,xT+),其中 T 是 rollout 的最大深度,根据 AZ 以最有利的状态终止。我们将此最佳推出 X ≤ T + X^+_{≤T} X≤T+ 与低于标准的推出 X^−_{≤T} 进行对比,根据值估计,后者被定义为 MCTS 搜索树中的次优路径或 MCTS 中的访问计数。
我们的过程背后的直觉是,由于概念 c, X ≤ T + X^+_{≤T} X≤T+ 被选择而不是 X ≤ T − X^−_{≤T} X≤T−,并且我们假设概念 c 可以通过某个层 l 的线性探针检测到。 。概念的存在可能会以不同的方式影响规划。考虑 MCTS 中的两种推出,一种由 A Z ( X ≤ T + ) AZ (X^+_{≤T}) AZ(X≤T+) 选择,另一种不由 A Z ( X ≤ T − ) AZ (X^−_{≤T}) AZ(X≤T−) 选择。对于 AZ 选择 X ≤ T + X^+_{≤T} X≤T+ 而不是 X ≤ T − X^−_{≤T} X≤T− 的原因,存在三种不同的可能解释:
-
主动规划 X ≤ T + X^+_{≤T} X≤T+增加了概念c的存在。例如,推出 X ≤ T + X^+_{≤T} X≤T+可能会增加片段活动的概念。
-
预防性计划 X ≤ T + X^+_{≤T} X≤T+ 避免增加概念 c 的存在。一个例子可以 X ≤ T + X^+_{≤T} X≤T+ 中的计划避免丢失一块。
-
随机 X ≤ T + X^+_{≤T} X≤T+ 是在 X ≤ T − X^-_{≤T} X≤T− 之上任意选择的,因为所有概念在两次推出中都同样存在,并且最终状态的值估计大致相等。
我们对场景 1 和 2 感兴趣,但对场景 3 不感兴趣。场景 3 可以通过以下方式过滤掉利用以下事实:两次推出将具有相似的价值估计和访问次数MCTS 统计。
使用与静态概念类似的方法,我们得出向量 vc,l 上的概念约束通过对比正例和负例,除了这次我们的对比示例是来自所选卷展
X
≤
T
+
X^+_{≤T}
X≤T+ 和低于标准卷展
X
≤
T
−
X^−_{≤T}
X≤T− 的对。对于正例和负例,我们分别用
z
t
,
l
+
z^+_{t,l }
zt,l+ 和
z
t
,
l
−
z^−_{t,l}
zt,l− 表示深度 t 处 l 层的激活。一对正负推出会产生以下凸优化问题
对于场景 1,不等式在场景 2 中相反。
图 3:将不同时间步长的最佳部署与低于标准的 MCTS 部署进行对比。这绿色卷展显示最佳卷展,红色卷展描绘低于标准的轨迹。每一次步骤,MCTS 发现低于标准的轨迹。我们将每一对都包含在概念约束中。
我们通过将最佳轨迹与多个低于标准的轨迹进行对比来扩展这个想法跨越不同的 MCTS 深度。图 3 显示了这个想法。在图3的左侧,我们发现初始国际象棋位置 t = 1 处的最优且低于标准的轨迹。但是,我们也可以使用MCTS 统计数据(价值估计和访问计数)以查找 t = 2 时的低于标准的轨迹(如图所示)中)且 t = 3(如右图所示)。使用多个低于标准的轨迹背后的想法是进一步缩小解空间,以减少噪声(从而增加可能性概念向量是有意义的)并降低学习多语义的可能性向量.
令
Z
≤
T
+
Z^+_{≤T}
Z≤T+ ,l 表示第 l 层中对应于最优推出
X
≤
T
+
X^+_{≤T}
X≤T+ 的潜在表示,并且
Z
≤
T
−
Z^−_{≤T}
Z≤T− ,l, j 表示对应于在时间步 j 选择的次标准推出
X
≤
T
−
X^−_{≤T}
X≤T− 的 l 层中的潜在表示。我们发现动态概念如下:
其中
T
T^~
T 表示我们发现次优推出的最大深度。图 3 中的
T
=
3
T^~ = 3
T =3。一般来说,我们设置
T
=
T
−
5
T^~ = T − 5
T =T−5 以确保推出足够深。有关如何设置 T 的详细信息,请参阅第 8.4.1 节。
5.2 过滤概念
我们的方法(第 4.1 节中描述)提供了许多概念向量,其中一些或许多代表已知概念或不可概括的概念(即仅适用于单个国际象棋位置)。在本节,我们描述如何进一步过滤概念以确保它们有用(可转移)和小说。我们对有用性的第一个过滤是看看我们是否可以向学生网络教授一个概念这样可以提高概念测试位置的性能。我们描述这个过程仅选择第 4.2.1 节中的可教授概念。我们根据新颖性(§4.2.2)进一步过滤概念:寻找 AZ 的自玩游戏中未出现在顶级人类游戏数据集中的表示。
(未完待续…)