Dependency Dialogue Acts — Annotation Scheme and Case Study [论文解读]

原文链接：https://arxiv.org/pdf/2302.12944.pdf

摘要

在本文中，我们介绍了依存对话行为(Dependency Dialog Act, DDA)，这是一个新颖的框架，旨在捕捉多方对话中说话者意图的结构。DDA结合并适应了现有对话标注框架的特点，并强调了对话的多关系响应结构，除了对话行为和修辞关系。它表示了多方多线程对话中的功能性、话语性和响应结构。DDA与现有的对话标注框架（如SWBD-DAMSL和ISO24617-2标准）相比有几个关键特点。首先，DDA优先考虑对话单元的关系结构和对话上下文，将对话行为和修辞关系都标注为特定话语的响应关系。其次，DDA接纳了对话中的重载现象，鼓励标注者为每个对话单元指定多个响应关系和对话行为。最后，DDA强调充分捕捉说话者如何利用完整的对话上下文来计划和组织他们的言语。凭借这些特点，DDA在表现多个说话者之间对话动态方面是高度表达性和以回顾为导向的。接下来，我们将展示DDA标注框架，并通过案例研究来标注多方、多线程对话中的DDA结构。

1. 引言

话语分析已成为自然语言处理中日益受欢迎的问题。广义上，对话话语分析涉及观察两个或多个个体之间的对话，并理解其中交换的信息，无论是明确的还是含蓄的。对话分析系统的目标之一是能够理解参与方的意图。当分析开放环境中多于两人的对话时，这个问题变得更加困难。在这些环境中，旁听和非话语事件可能会打断正在进行的对话。这些多方多线程的场景是我们每天都会遇到的。此外，这些复杂的对话包含了丰富的信息，表明了说话者之间的关系、他们的情绪、喜好与厌恶以及他们的意图。

目前，我们看到了越来越多试图模仿我们的能力来正确解释这些信息并对其做出适当反应的对话代理。之前在话语分析方面的研究导致了多种旨在捕捉对话不同方面的标注方案的出现。这个领域的一个基础方案是Switchboard DAMSL，它根据对应的对话行为在话语级别标注对话。对话行为用来代表说话者的意图，比如提问或表达陈述-观点。其他替代方案包括修辞结构理论(RST)和浅层话语关系框架，如宾夕法尼亚话语树库(PDTB)，这些通常用来分析文本结构和连贯性。这些方案在分析对话方面被证明是极其有价值的，但在多方、开放环境的设置中，如我们感兴趣的领域——课堂对话，会遇到独特的挑战，比如对话线程相互交织并被话外的事件打断。考虑到这一点，我们着手设计一种话语分析方案，能够追踪多位说话者的意图，同时保留从一次对话转向下一次的关系信息。此外，我们希望我们的方案对于生成多方对话中适当反应的对话代理来说足够有用，这与我们创建更可解释和可控的对话生成代理的目标一致。

先前的工作表明，修辞结构和对话行为可以在对话代理中的响应生成中提高可控性和可解释性。我们提出的依赖对话行为(DDA)标注方案在话语标注的先前工作基础上进行构建，通过合并现有方案中的不同特征到一个系统中，以捕捉大量的会话上下文的同时最小化标注者的工作量。主要目标之一是能够保留话语不同转向间的修辞和响应关系。此外，我们希望通过允许标注者在适当时选择每个话语的多个标签来接受对话的固有重载性质。最终，DDA方案以上下文为基础锚定说话者的意图。

本文的目的是定义依赖对话行为(DDA)标注方案用于话语分析，并在多线程多方对话的背景下调查其有效性。在第3节中，我们定义了DDA的响应结构，并介绍了由两类组成的标签集：对话行为和修辞关系。我们通过各种对话设置中的例子展示了DDA方案的有用性。在第4节中，我们讨论了在对话分析领域中的应用。在第5节中，我们简要回顾了先前关于话语标注方案的工作，并强调了每个方案捕捉的关键特征。能够充分解释多方多线程对话对于许多领域的对话技术都有重要意义；我们希望DDA方案是朝着捕捉这些设置中更多关键信息的一步。

2. 动机

我们通过图1至图3中展示的三个例子来阐述我们依赖对话行为(DDA)标注方案的动机。DDA旨在尽可能多地捕捉话语间的相互关系信息，同时表示单个话语可以具有的多个对话行为和修辞关系。DDA通过一个综合的图结构捕捉响应结构、对话行为和修辞关系。与ISO24617-2相比，DDA为每个话语提供了更多的对话行为和更多的关系（见图1和图2）。DDA的边代表响应关系，会话线索形成连接组件，类似于Ubuntu-IRC语料库中的回复结构图（见图3）。
在这里插入图片描述

3. 依存对话行为

我们提出了依赖对话行为(DDA)标注方案，旨在捕捉多方设置中说话者意图及其与对话上下文的关系的广泛范围。我们强调以下关键设计理念：

上下文导向：DDA鼓励标注者从关系的角度思考。这在DDA中通过在响应边缘上标注对话行为和关系来反映，而不是在对话单元上（见第3.1节末尾）。这样做的目的是捕捉说话者的意图与周围上下文的关系。

以回顾为导向：DDA鼓励标注者标注所有适合给定上下文的响应关系。它将重载作为框架的一个重要特性（见第3.2节末尾）。重载指的是一个对话单元可以承载多重含义和目的，DDA通过允许对一个单元进行多重标注来接受和利用这一点。

关注说话者意图：DDA试图捕捉说话的目的和“如何”说话者基于上下文计划和安排他们的言语。这一理念反映在DDA的设计决策中。DDA旨在捕捉说话者意图作为一个关键特征。“意图”是哲学、行动理论和逻辑中广泛研究的概念。我们遵循功能主义哲学，将意图定义为我们脑中的操作计划或当前行动所蕴含的计划。例如，当说话者提供一个“行动指示”话语时，说话者蕴含的计划是要执行某些行动。然后，当进一步提供“详细说明”时，说话者的计划是使现有陈述更具说服力或清晰。DDA使用从SWBD-DAMSL扩展的对话行为集作为描述行为的基础，并使用扩展的话语关系作为描述话语目的计划的基础。它将意图信息和上下文嵌入到标记的依赖边缘中。

我们在两个部分介绍依赖对话行为标注方案：

第3.1节：我们定义了对话单元之间的响应依赖关系（见下文的划分单元）。
第3.2节：我们描述了现有对话行为和修辞关系标签方案的调整，以形成DDA意图空间的基础。
对话单元的标注：划分单元 - 类似于ISO24617-2标准中的功能性片段和RST中的基本话语单元（EDUs），我们假设对话被分解成用于标注的单元。遵循SWBD-DAMSL标注方案，我们将这些称为划分单元。

3.1 DDA Edges: Response Dependencies

在DDA中，边缘指示划分单元之间的响应关系。具体来说，对于一个感兴趣的划分单元，响应依赖是从该单元指向它依赖或在对话中起源于的划分单元的有向边。当一个划分单元ui在之前的上下文中没有相关的单元时，我们使用自指依赖ui→ui来指定对话的新线索的开始。DDA对划分单元之间的响应关系采取了广泛的视角，涵盖了其他框架中的功能性、修辞和回复关系：

功能性依赖：对话行为的含义在很大程度上依赖于对话上下文中的特定划分单元，比如回答依赖于问题。
修辞关系：两个划分单元的连贯组织，例如标注哪些单元是对之前单元的详细阐述或对比。也被称为话语关系。
响应或续接依赖：代表对话线索的继续，但两个划分单元之间没有明确的功能性或修辞依赖。
在DDA中，对话线索形成DDA标注图中的独立连接组件。考虑图1，它包含了DialogBank语料库中一个片段的DDA标注，该片段最初是用ISO24617-2标准标注的。虽然ISO标注包括多种关系类型，但一些对话单元在对话线索中保持未连接的状态。虽然像这样的双方对话通常遵循单一的线性线索，但情况并非总是如此。例如，连贯的线索可以重叠，并可能需要解开以便进一步分析，如图3、5和6所示。

我们在响应边缘上标注对话行为，而不是在划分单元上。这与SWBDDAMSL和ISO等大多数先前的对话行为标注方案形成了对比。我们方法的好处是它明确标记了每个对话行为的上下文。例如，在图5中，话语32包含一个问题，问“谁想先开始？”。在DDA标注中，通过响应依赖明确标记了上下文，因此可以理解为首先进行他们包中第一个问题的讨论。在ISO标注中，这种上下文需要从对话历史中推断出来，这可能很困难，因为许多最近的划分单元属于不同的对话线索。
在这里插入图片描述

3.2 DDA Tagset: Dialog Act and Discourse Relation Classes

多数对话标注框架从两个视角之一标注对话单元。首先，有一些框架用于标注对话单元的功能或“行为”，包括DAMSL、SWBD-DAMSL和ISO24617-2标准。其他框架旨在模拟单元间的话语关系，借鉴修辞结构理论或分割话语表示理论（SDRT）。由于我们希望捕捉说话者意图，我们的目标是通过调整来自SWBD-DAMSL方案的对话行为和来自宾夕法尼亚话语树库3.0方案的话语关系，在单一标注方案中捕捉多方对话中这两类现象。尽管相对较少的方案试图统一这些方法，但我们的方案并不是第一个。特别是，ISO24617-2标准包括对话行为以及一个额外的修辞关系维度，最常用DR-CORE3关系集进行标注。

对话行为集：DDA的对话行为集涵盖了SWBD-DAMSL方案中42个最常用的对话行为（DA）类别中的40个。其中26个类别保持了原始定义和类名，其余的15个被合并为更粗的类别。这样我们得到了31个DA类别。最显著的合并是SWBD-DAMSL DA类别中的“问题”和“回答”DAs。我们用单一的“回答”标签替换了SWBD-DAMSL中的5个“回答”类型，并用3个更粗的“问题”类别替换了SWDB-DAMSL中的8个“问题”DAs。这是因为大多数子类型的“问题”和“回答”标签可以通过词汇层面的分析来解决。此外，我们添加了“玩笑”作为一个新的DA来涵盖我们感兴趣领域的社交行为。

修辞关系集：DDA使用从PDTB扩展的话语关系，增加了一些额外的关系。除了对话行为，话语关系对于描述对话行为无法涵盖的、特别是与说话组织意图相关的说话者意图非常有用。我们使用了PDTB3.0的话语关系集，但对“偶然”和“扩展”类型进行了一些更细粒度的扩展。对于“偶然”类，我们增加了4个更不对称的子类型来表示原因（“Justify”, “Motivation”, “Enablement”和“Evaluation”）。同样，我们用3个更多的关系（“Process-step”, “Object-attribute”和“List”）扩展了“扩展”类，这些灵感来自Amanda Stent在对话中对RST的研究。

过载和多功能性：作为DDA以回顾为导向的标注哲学的一部分，我们接受多边缘来编码响应的过载。例如，在图2中，话语(2)可以被认为是一个“回复”，给定这个例子中唯一的上下文话语是话语(1)中的一个问题，使得回复边也是一个响应依赖边。随着对话的进行，话语(4)中呈现的意图从作为对话语(1)的“回答”（对之前问题的又一个相同答案的边际信息增益减少）转变，因此更多地服务于修辞功能而不是交流功能。
在这里插入图片描述

4. 应用

对话线索：尽管DDA中的对话标注可能包含比回复结构图更多的结构性链接，但它们共享一个有用的特性，即可分离的对话线索在结果图中形成了连接的组件。给定一个完整的对话标注，这允许一个简单的方法来解开线索，这是一个已经被证明能改善对话理解方法的处理步骤，并且在我们的课堂多方对话设置中具有分析兴趣。图4为一个例子。依赖链(8)-(15)-(16)，(9)-(11)-(12)和(10)-(13)-(14)-(17)-(18)-(19)可以从DDA的响应依赖结构自然地得出。同样，在图5中，我们展示了一个课堂示例，其中学生之间的对话线索通过遵循响应依赖自然地被解开。

响应依赖用于话语分析：DDA的响应依赖结构的理论优势不仅限于线索解开和标注简化。DDA可能被用作分析工具来识别人际关系和权力动态。例如，如果DDA依赖显示某些参与者之间有显著更多的连接，这可能表明他们进行了更多的参与对话并形成了联系。此外，如果DDA的对话的拓扑结构显示出说话者之间平衡的连通性，它可能表明权力是均匀分布的。相反，如果依赖性主要指向一个或少数几个人，那么他们更有可能是领导对话的人。我们旨在在未来的工作中探索这些分析。在表1中，我们比较了不同标注方案之间的特征。
在这里插入图片描述

5. 相关工作

对话行为：分析话语“行为”，即对话行为，有着悠久的历史。开发的对话行为标注方案包括DAMSL（多层对话行为标记）、SWBD-DAMSL、DIT（动态解释理论）和DIT++方案。ISO24617-2标准提出了一个基于语义的对话标注标准，包括对话行为和话语单元间的关系。研究者们长期注意到，多功能性（语用过载）很难用单一话语目的捕捉，尤其是在多方多线程对话中。在我们的工作中，我们遵循SWBD-DAMSL的方法，通过增加其扁平化的DA标签集。然而，我们进行了两个增强：首先，DDA通过多标签和多依赖处理多功能性现象；其次，DDA解决了响应结构，这不仅揭示了对话中更深层次的话语结构，还将对话行为和话语关系锚定在上下文中，这与标签方案根本不同。在有限的实验中，我们发现标注DDA的效率与SWBD-DAMSL相当。

多方对话中的修辞关系：以往关于多方对话的结构化分析主要关注简单的线索解开，而不是分析产生的修辞结构。在当前工作中，我们主要关注多方对话中的修辞结构。在对话分析中使用了四个最有影响力的框架：修辞结构理论（RST），分割话语表示理论（SDRT），Hobbs的话语理论和宾夕法尼亚话语树库（PDTB）框架。在RST中，通过连接相邻的话语单元递归构建RST树，形成覆盖整个文本的层次结构。RST Bank为社区广泛使用创建了参考语料库，同时提供了使用RST标注对话的实际分析。与RST类似，SDRT也提供了一个具有完整标注的文本组织层次结构。例如，DISCOR语料库、ANNODIS语料库和STAC使用有向无环图，允许多个父节点，但不允许交叉。基于Hobbs的理论，话语图库允许通用图，允许多个父节点和交叉。与上述框架不同，PDTB采用中立理论的方法进行标注，不旨在实现文本的完整标注，而是专注于由结构性连接词或话语副词锚定的局部话语关系。这种理论中立性不承诺从低层次关系标注及其参数中创建何种高层次结构，因此它允许更多自由来调查多方多线程对话中的复杂依赖结构。此外，ISO DR-Core也遵循PDTB中的理论中立立场，只标注高层次、粗粒度的话语关系，然后可以进一步标注以捕捉更细粒度的树或图结构，这取决于个人的理论偏好。DDA遵循PDTB的话语关系分类，因为它在标注实践中被证明是有效的，可以获得良好的标注者一致性，但我们用密集的响应结构标注而不是部分标注加以增强（如图1所示）。

标注响应结构图：另一项工作旨在通过揭示多方言语或在线聊天中话语之间的响应依赖关系来改进会话理解系统。给定划分成话语的对话，任务是将感兴趣的话语与其响应的所有先前话语连接起来。结果形成的连接组件形成对话线索，可以在下游系统中单独理解。Ubuntu互联网中继聊天（IRC）提供了一个最大的、用回复结构图标注的语料库之一，包含77,653条信息。我们的响应依赖概念与这项工作类似，但有三个关键区别：（1）我们所有的依赖都标记了在响应话语中启动的对话行为和/或修辞关系。（2）所有非自身的DDA边缘都指向先前的话语，但通过在第3.2节中提到的双重编码，边缘仍然表示每个话语的语义角色。（3）感兴趣的话语可以用任意数量的标签响应任意数量的先前话语。

6. 将来工作

未来，我们计划将DDA应用于多方会话的标注，包括K-12教室中的对话，学生在这里形成小组以协作解决问题。

局限性：DDA，和所有其他话语层面的标注方案一样，有其在范围、普适性和特定领域偏见方面的局限性。首先，DDA假设对话记录中存在足够的信息进行标注。如果某些上下文中的引用需要通过非语言沟通渠道解决，比如指点和手势，DDA可能需要对话的具体情境转录才能得到适当部署。此外，DDA继承了来自PDTB和SWBD-DAMSL的表达能力的局限，并从它们在实践中的可扩展性中获益。

其次，DDA本身并不能保证完全反映收信人信息。这意味着在分析特定对话参与者的角色和影响时，可能需要额外的信息或注释来明确他们的参与情况。尽管如此，DDA提供了一种强大的工具，用于理解和分析多方对话中的复杂动态和结构，是多方面会话分析的有力补充。