基于链式推理的文档级事件论元提取

Document-Level Event Argument Extraction With A Chain Reasoning Paradigm

文档级事件参数提取旨在识别句子级别之外的事件参数，其中一个重大挑战是对远程依赖关系进行建模。针对这一挑战，我们为该任务提出了一种新的链式推理范式，它可以生成可分解的一阶逻辑规则进行推理。由于链的组合性质，这种范式自然地捕获了远程相互依赖，这也通过显式地建模推理过程来提高可解释性。我们引入 T 范数模糊逻辑进行优化，它允许端到端学习，并有望将逻辑推理的表达能力与神经网络的泛化相结合。在实验中，我们表明我们的方法在两个标准基准上明显优于以前的方法（F1 中超过 6 个点）。此外，它在资源匮乏的情况下具有数据效率，并且足够强大以防御对抗性攻击。

识别事件参数（即事件的参与者）是文档级事件理解的一项关键任务（Ebner et al., 2020；Li et al., 2021）。在此任务中，主要挑战是对事件触发器和参数之间的远程依赖关系进行建模，因为事件表达式可以跨越多个句子（Ebner 等人，2020；Liu 等人，2021；Li 等人，2021）。考虑图 1 中由触发引爆（类型 = 攻击）表示的事件。为了定位其参数 Tartus（语义角色 = 地点），模型应捕获包含三个句子和 178 个单词的大型上下文窗口，以支持推理过程。

目前，有效捕获此类依赖关系仍然是一个悬而未决的问题（Liu et al., 2021, 2022c）。先前的研究提出建模通过结合分层编码机制（Du and Cardie，2020a）、生成范式（Li et al.，2021；Ma et al.，2022；Du et al.，2022）和文档级归纳偏差（Wei等人，2021；Pouran Ben Veyseh 等人，2022；Liu 等人，2022b)。然而，此类方法并未明确表征文档上下文背后的推理模式，这可能会导致性能不佳。此外，大多数以前的方法都是不可解释的，因为它们依赖于黑盒神经网络。

$\<img alt="" data-attachment-key="5WFMU28T" width="676" height="697" src="attachments/5WFMU28T.png" ztype="zimage">$

在本文中，我们提出了一种新的推理链范式来解决文档级事件参数提取（EAE）。如图 1 底部所示，我们的方法试图通过一系列局部推理步骤来描述全局参数查找过程。例如，我们可以使用以下链来定位塔尔图斯：引爆目标→Arzunah Bridge locatedIn→塔尔图斯。与以前的方法相比，这种推理链范式具有三个明显的好处：首先，由于推理链的组合结构，它自然地捕获了长距离依赖关系。其次，它只涉及局部推理，这在概念上比直接执行全局推理更容易。第三，它提高了可解释性，因为推理过程是可见的。

我们的方法将推理链形式化为一阶逻辑（FOL）规则（Cresswell 和 Hughes，1996）。具体来说，令 RL(T , ?) 为对事件参数的查询，该事件参数满足关于事件触发器 T 的语义角色 RL （例如，地点）。我们将查询形式化为以下 FOL 规则：

$\<img alt="" data-attachment-key="T4XFLP62" width="513" height="69" src="attachments/T4XFLP62.png" ztype="zimage">$

其中规则主体（右侧）由具有低级谓词 {ri}1n 和中间线索实体 {Bi}n−1 1 的合取命题组成。我们构建一个模型，根据文档上下文自动生成规则，然后将规则转换为推理链来定位事件参数。然而，由于 FOL 规则的离散性质，使用 FOL 规则进行优化通常具有挑战性（Qu 等人，2021a）。受到使用 FOL 增强神经网络的工作的启发（Li 和 Srikumar，2019；Ahmed 等人，2022），我们提出了用于松弛的 T-Norm 模糊逻辑（Hajek，1998），这导致了端到端的训练机制。

我们在两个基准上验证了我们的方法的有效性（Ebner 等人，2020；Li 等人，2021）。根据结果，我们的方法通过这种链式推理范式提供了有希望的结果，例如与使用大规模外部资源训练的模型相比，F1 提高了 6 个点（第 6.1 节）。有趣的是，除了性能提升之外，我们的方法还表现出良好的鲁棒性，特别是在资源匮乏的情况下和防御对抗性噪音（第 7.2 节）。最后，我们使用彻底的案例研究来评估我们方法的可解释性（第 7.3 节）。

2 相关工作

使用 FOL 规则进行推理。一阶逻辑（FOL）规则可以对声明性知识进行编码，并在符号推理中发挥至关重要的作用（Cresswell 和 Hughes，1996）。在深度学习时代，多项研究探讨了 FOL 规则与神经网络的集成以进行推理（称为神经符号方法），以及在知识库推理（Qu 等人，2021b）、文本蕴涵（Li 和 Srikumar）中的应用，2019）、问答（Wang 和 Pan，2022）以及其他（Medina 等人，2021；Ahmed 等人，2022）。我们的方法受到知识库推理工作的启发，据我们所知，这是在文档级 EAE 背景下合并 FOL 规则进行推理的首次尝试。与其他方法相比，我们研究了使用神经网络自动生成规则，而不是像（Li 和 Srikumar，2019；Wang 和 Pan，2022）那样采用专家编写的规则。此外，与基于强化学习的方法不同（Qu et al., 2021b），我们使用 T 范数进行规则松弛，从而形成具有更稳定学习过程的端到端训练范例。

3 方法

图 2 概述了我们的方法，并提供了一个提取事件引爆的 Place 角色参数的示例。令 D = {w1, · · · , T, · · · , wN } 为包含 N 个单词和事件触发器 T 的文档，并令 RL(T , ?) 为对语义角色 RL 的事件参数的查询。我们的方法不是直接执行可能涉及高级过程的推理，而是将查询表示为具有连接命题和低级谓词的 FOL 规则{ri}1n：

$\<img alt="" data-attachment-key="EALEF5M3" width="585" height="67" src="attachments/EALEF5M3.png" ztype="zimage">$

这样，规则的主体就暗示了一个推理链：T r1 → B1 r2 → · · · Bn−1 rn → ?。我们使用双谓词公式，特别是RL(T, ?) ← r1(T, B) ∧ r2(B, ?)为了解释我们的方法，我们在第 4 节中描述了一般情况。

$\<img alt="" data-attachment-key="3Y9VQ2IL" width="1379" height="627" src="attachments/3Y9VQ2IL.png" ztype="zimage">$

3.1

在我们方法的第一步中，我们创建一组实体，可以从中选择一个实体作为中间线索实体以形成推理链（关于我们的双谓词结构）。我们扩大了“实体”的概念，以包含文档中的任何单个单词，以合并基于动词的提示。为了限制集合的大小，我们给每个单词一个分数源自 BERT 表示（Devlin 等人，2019）。例如，wi 的得分为：

$\<img alt="" data-attachment-key="46BYK6KL" width="562" height="106" src="attachments/46BYK6KL.png" ztype="zimage">$

其中h_wi是wi的表示，w_s和b_s是模型参数。我们根据分数对所有单词进行排序，并选择分数最高的 K 个单词组成集合，表示为 B = {b_i}_i^K=1。

为了促进训练和测试，我们还生成了一个参数候选集。在这种情况下，我们不使用实体的广义定义，因为事件参数被定义为名词实体（Walker and Consortium，2005；Ahn，2006）。当真实实体可用时（例如在 WikiEvents (Li et al., 2021) 中），我们将候选集视为真实实体集；否则，我们使用外部工具包2来识别实体。我们用 A = {ai}iL=1 表示参数候选集。

3.2

给定实体候选集B和参数候选集A，下一步是生成两个谓词并选择集合中的相关候选者以形成规则。在这里，我们解释了生成关于特定实体参数对（B ∈ B，A ∈ A）的谓词的方法，并且我们在第 4 节中展示了对不同候选对生成的规则进行排名的度量。

谓词表示。在我们的方法中，我们假设有 M 个原子谓词不可分解的语义，由谓词集 R = {R_i}^M_i=1 表示。我们给每个谓词一个 d 维向量化表示，并导出 R 的矩阵表示 U ∈ RM×d。对于语义角色 RL，我们还给它一个 d 维表示，由 r_RL ∈ Rd 表示。

学习角色-谓词关联。给定这些表示，我们首先学习角色-顶级谓词关联，该关联指示哪些谓词可能仅基于角色而不考虑上下文而生成。我们采用自回归学习并生成概率向量 a(1) RL ∈ RM 指示第一个谓词 r1 在谓词集 R 上的分布：

$\<img alt="" data-attachment-key="2DJDB86S" width="487" height="73" src="attachments/2DJDB86S.png" ztype="zimage">$

其中 W⁽¹⁾_s ∈ R^d×d 是一个参数。为了了解第二个谓词 r2 的分布，我们首先通过整合第一个谓词的影响来更新角色的表示：

$\<img alt="" data-attachment-key="WLCE8QIE" width="469" height="76" src="attachments/WLCE8QIE.png" ztype="zimage">$

然后计算概率向量 a⁽²⁾ _RL ∈ R^M：

$\<img alt="" data-attachment-key="IKPRLVPR" width="497" height="78" src="attachments/IKPRLVPR.png" ztype="zimage">$

其中 W⁽¹⁾_a ∈ R^M×d 和 W⁽²⁾_s ∈ R^d×d是要学习的参数。我们可以将 r1 和 r2 分别设置为 a⁽¹⁾_RL 和 a⁽²⁾_RL 中概率最高的谓词。然而，这种方法总是为语义角色生成相同的谓词，并且性能相当差（7.1）。作为解决方案，我们引入了一种根据上下文对谓词重新排序的机制。

上下文相关谓词生成。设 X 和 Y 为两个实体。我们首先计算一个概率向量 v(X,Y ) ∈ R^M 表示 (X,Y ) 与每个谓词 R ∈ R 的兼容性，以形成命题 R(X, Y )：

$\<img alt="" data-attachment-key="CUYULVTV" width="520" height="68" src="attachments/CUYULVTV.png" ztype="zimage">$

其中 h_X 和 h_Y 是 X 和 Y 的表示，⊕ 是串联运算符，W ∈ R^m×2d 是模型参数。我们将兼容性概率与角色谓词关联概率相结合，以生成最终谓词。具体来说，对于事件触发器 T ，一定实体 B ∈ B 和参数候选 A ∈ A，我们生成以下两个谓词：

$\<img alt="" data-attachment-key="RCETCNC6" width="601" height="122" src="attachments/RCETCNC6.png" ztype="zimage">$

其中是逐元素乘法运算符，s_X表示被选为候选线索实体集 B 中的实体 X 的得分（式（1））。这样，生成的 FOL 规则为 RL(T, A) ← r1(T, B) ∧ r2(B, A)，暗示到达事件参数 A 的推理路径： T r1 −→ B r2 −→ A 。\
4 优化和泛化

由于 FOL 规则的离散性，使用 FOL 规则进行优化通常具有挑战性（Qu 等人，2021a）。在这里，我们提出了用于松弛的 T-Norm 模糊逻辑，它产生了端到端的学习过程。

用于松弛的 T 范数模糊逻辑。 T-Norm 模糊逻辑通过承认 1（真值）和 0（假值）之间的中间真值来概括经典的二值逻辑。对于我们生成的 FOL 规则 RL(T, A) ← r1(T, B) ∧ r2(B, A)，我们将 r1(T, B) 和 r2(B, A) 的真值设置为相应的分数式（6）和式（7）中，分别记为p1和p2。然后，遵循 Łukasiewicz T-Norm 逻辑，两个命题的合取对应于：

$\<img alt="" data-attachment-key="3VGXZBE4" width="572" height="55" src="attachments/3VGXZBE4.png" ztype="zimage">$

我们将其重写为度量4：M (T, B, A) = p(r1(T, B) ∧ r2(B, A)) 并将其用于规则排序和优化。特别地，我们枚举每个实体参数对 (B, A) ∈ B × A，并用 ( ˆ B, ˆ A) 表示得分最高的一个。然后我们得出以下优化损失：

$\<img alt="" data-attachment-key="B45E6KDW" width="588" height="131" src="attachments/B45E6KDW.png" ztype="zimage">$

其中θ表示整体参数集（在训练时，ground-truth参数是已知的，我们可以直接将最优参数设置为ground-truth）。尽管我们的方法考虑了每个候选实体和参数，但我们通过并行张量运算表明，我们的方法与先前的方法一样有效地进行竞争（参见附录 A.1）。

概括为一般情况。我们使用结构二谓词结构来解释我们的方法，但是很容易将其适用于具有任意数量谓词的一般情况。现在假设一个 n 谓词结构。我们首先使用类似于等式 1 的自回归机制来学习一系列角色预测关联向量 a(1) RL 、 a(2) RL 、…、a(n) RL 。（3）和（4）。然后，我们重新排序并生成谓词r1，r2，····，rn以形成逻辑规则。为了优化，我们驱动以下度量 p(r1∧r2∧···∧rn) = min(p1, p2,···, pn)，这类似于等式： (8)进行规则排序和模型训练。

基准和评估。我们使用两个文档级 EAE 基准进行实验：RAMS（Ebner 等人，2020）和 WikiEvents（Li 等人，2021）。 RAMS基准定义了139种事件类型和59种语义角色，并给出了7,329个带注释的文档； WikiEvents 基准定义了 50 个事件类型和 59 个语义角色，并提供了 246 个带注释的文档。详细的数据统计如表1所示。接下来（Ebner et al., 2020; Liu et al., 2021），我们采用类型约束解码（TCD）设置进行评估，假设事件触发器及其类型已知。我们在 RAMS 上使用 Span-F1，在 WikiEvents 上使用 Head-F1 和 Coref-F1 作为评估指标，其中 Head-F1 仅检查参数中的中心词，Coref-F1 还考虑参数之间的共指链接（Du 和Cardie 等人，2020a；Li 等人，2021；Ma 等人，2022）。

实施。在我们的方法中，我们使用 BERTbase 来学习上下文单词表示（Devlin 等人，2019）。使用开发集调整超参数。最后，实体候选集K的大小设置为40，从范围[20,30,40,50]中选择，而参数候选集的大小由外部实体识别器自动确定。谓词数量 M 设置为 [10, 15, 20, 25] 选项中的 20 个。为了优化，我们使用 Adam 优化器（Kingma 和 Ba，2015），批量大小为 10（来自 [5, 10, 15, 20]），学习率为 1e-4（来自 [1e-3, 1e-4, 1e]） -5]。

基线。为了进行比较，我们考虑以下四类方法：1）传统方法，例如 BIOLabel（Shi 和 Lin，2019），它将任务视为顺序标记问题。 2）全局编码方法，例如 QAEE（Du 和 Cardie，2020b）和 DocMRC（Liu 等人，2021），它们将任务形成为基于文档的问答问题，以及 MemNet（Du 等人，2022）），它使用内存来存储全局事件信息。 3）生成方法，例如BART-Gen（Li et al., 2021），它提出了用于参数提取的序列到序列范式，以及PAIE（Ma et al., 2022），它采用集合生成公式。 4）使用额外监督的方法，例如采用框架相关知识的FEAE（Wei et al., 2021）和利用抽象意义表示（AMR）资源的TSAR（Xu et al., 2022）。

在本节中，我们将介绍关键结果，按整体性能和捕获远程依赖项的结果分开。

6.1

表 2 和表 3 分别显示了不同模型在 RAMS 和 WikiEvents 上的性能。通过采用推理链范式，我们的方法显着优于以前的方法，并实现了最先进的性能——RAMS 上的 F1 为 56.1%，WikiEvents 上的 Head-F1 和 Coref-F1 为 72.3%。值得注意的是，我们的模型不使用外部资源进行训练，但它比以前使用大量外部资源训练的模型在 RAMS 上的 F1 中优于 6%，在 WikiEvents 上的 Head-F1 中优于 4%（在 Coref-F1 中为 7%）。此外，我们发现主要的改进来自于召回率的提高，这表明学习推理逻辑规则有助于定位以前的全局推理方法难以找到的论点。

6.2

然后，我们评估不同模型处理远程依赖关系的能力，这对于文档级任务至关重要。表 4 和表 5 相应地显示了不同参数触发距离 d 的结果，我们的模型在解决远程依赖性方面取得了显着的性能，例如，当 d=-1 时，F1 的绝对改进为 10.9%、15.7% 和 6.7%， RAMS 上分别为 d=1 和 d=2。有效性背后的见解是，通过采用推理链范式，我们的方法可以利用线索实体来缩短触发器和论点之间的距离，从而促进长上下文学习。尽管如此，我们还注意到，当参数是触发器之前的两个句子时（d=-2），我们的方法产生相对较差的性能。一个可能的原因是我们的推理链总是从触发器开始，而我们没有定义反向谓词5，这可能会限制其灵活性。我们将解决这些问题以供进一步的工作。

我们进行了一系列详细的研究，以进一步验证我们模型的有效性。为了方便讨论，我们使用 RAMS 基准测试作为案例。

7.1

我们进行消融研究来分析不同成分的影响。

谓词生成的影响。表6将我们的方法与采用各种谓词生成策略的方法进行了对比：1）“w/o Predicate Generation”，直接生成推理路径而不生成谓词（换句话说，它只关心两个变量之间是否存在关系），但没有具体关系）。 2）“w/o Role Association”，消除了角色-谓词关联学习过程，其中谓词纯粹由两个变量确定。 3）“无 CTX 重新排名”，其中省略了上下文相关的谓词重新排序过程，其中谓词完全由角色生成。结果表明，谓词生成对于推理至关重要；如果没有它，性能会显着下降（F1 中为 23.9%）。此外，角色的语义对于谓词生成至关重要；如果没有它，F1 的性能会下降 15.7%。最后，学习上下文相关谓词重新排序是有利的，导致 F1 绝对提高 3.9%。

规则长度的消融。表7检查了LOC规则中谓词计数的影响，其中N（严格）表示我们精确地采用具有N个谓词的规则，N（自适应）表示我们采用最多具有N个谓词的规则并考虑预测自适应地获得最大分数，N（Ensemble）表示我们通过对参数的最终分数求和来集成结果。结果表明，指定固定数量的谓词会导致性能较差，而提供选择不同数量的谓词的选项会带来出色的性能。这也意味着论证寻找过程确实涉及不同的推理模式。此外，我们没有注意到 N（自适应）相对于N（Ensemble），表明FOL规则可能不利于集成。

谓词数量的消融。图3考察了基于RAMS开发集的谓词数量对最终性能的影响，以及它们与规则长度的联合效应（我们使用Adaptive设置）。根据结果，我们的方法对谓词数量不敏感，并且当谓词数量超过 15 时始终保持高性能。此外，我们证明当规则长度增加时可以减少谓词数量（例如，从两个到三个）。这是有道理的，因为更长的规则意味着更长的推理链，而推理链已经具有高度的内在表达性。相反，对于长度为 1 的 FOL 规则，即使我们增加谓词数量以增加其多样性，性能也始终不能令人满意。
7.2

鉴于我们的方法使用 FOL 规则来捕获基本推理模式，它可能比以前的推理方法更强大。我们通过分析其在低资源场景下的性能和防御对抗性攻击的性能来验证这一假设（Jia和Liang，2017）。

资源匮乏场景中的性能。图 4 比较了资源匮乏条件下的不同模型，其中显示模型仅在部分训练数据上进行训练（我们报告 5 次运行平均值以对抗随机性）。显然，我们的方法始终优于其他方法，并且值得注意的是，在极低的资源设置（少于 5% 的训练数据）下，它优于基于大型预训练语言模型和基于外部资源的 TSAR 提示的 PAIE，这表明了其有效性和学习 FOL 推理规则的普遍性。随着更多训练数据的可用，性能会提高。

防御对抗性攻击。图 5 显示了通过在测试示例中注入三种形式的噪声来防御对抗性攻击的结果。 ATK1：我们随机将句子中包含触发器的单词替换为槽符号[BLANK]； ATK2：我们将损坏的句子“答案是[空白]”放在包含触发器的句子后面。ATK3：我们在包含触发器的句子后面插入句子“[角色]的参数是[空白]”，其中 [ROLE] 被我们关注的语义角色所取代，考虑了两种设置：攻击（随机），其中槽位填充有参数。在其他情况下发挥相同的作用。攻击（金色），其中槽填充了真实参数，但如果模型预测槽中的参数是答案，我们认为这是一个错误，因为注入的句子与上下文无关。结果表明，我们的方法在防御对抗性攻击方面表现出色，尤其是在“攻击（随机）”设置下（见图 5(a)）。原因之一是我们的方法强制预测与文档上下文中其他实体具有语义关系的参数，因此它受隔离注入参数的影响较小。使用真实参数来防御攻击更具挑战性（图 5(b)），但我们的方法仍然实现了最佳的整体性能。

7.3

表 8 通过案例研究检验了我们方法的可解释性。通过分析案例 1)、2) 和 3)，我们建议我们的方法可以为相同的语义角色生成特定的且依赖于上下文的推理规则。此外，情况 2) 和 3) 的推理模式类似，其中 r2 可以解释为 Attacker 谓词，r4 可以解释为 LocationIn 谓词。情况 4) 生成与情况 2) 和 3) 相同的谓词 r2，可以将其解释为支付事件的 Committer 谓词；它与情况 2) 和 3) 中攻击事件的攻击者共享相似的语义。案例 5) 表明我们的方法可以捕获极远的依赖关系。

总之，我们提出了一种新的文档级 EAE 链推理范式，展示了捕获远程依赖项和提高可解释性的明显好处。我们的方法构建一阶逻辑规则来表示参数查询，并使用 T-Norm 模糊逻辑进行端到端学习。通过这种机制，我们的方法在两个基准测试中实现了最先进的性能，并在解决资源匮乏场景和防御对抗性攻击方面表现出良好的鲁棒性。在未来的工作中，我们寻求将我们的方法扩展到需要远程依赖关系建模的其他任务，例如文档级关系提取。

我们方法的一个限制是，当存在不同长度的规则时，最终结果是由集成决定的，而不是通过构建模型来生成具有最佳长度的单个规则。第二种方式更加自然和重要，因为计算出规则的长度也是符号推理的关键部分。然而，它需要更多的参数化（例如，规则的长度可以是参数）和更高级的优化方法。上述方法的研究留待以后的工作。