0%

多语言模型中事实知识的跨语言一致性

多语言模型中事实知识的跨语言一致性

Abstract

多语言大规模预训练语言模型(PLM)已被证明可以存储大量的事实知识,但观察到语言之间存在很大差异。为了确保具有不同语言背景的用户从同一模型获得一致的反馈,我们研究了各种多语言PLM中事实知识的跨语言一致性(CLC)。为此,我们提出了一个基于排名的一致性(RankC)指标,以独立于准确性来评估跨语言的知识一致性。使用这个指标,我们在模型级别和语言对级别对CLC的决定因素进行了深入分析。在其他结果中,我们发现增加模型大小会导致大多数语言中更高的事实探测准确性,但不会提高跨语言的一致性。最后,我们进行了关于CLC的案例研究,当通过模型编辑在PLM中插入新的事实关联时。英语插入的一小部分事实样本的结果揭示了一个清晰的模式,即新知识仅转移到英语具有高 RankC 分数的语言。

image-20240526194951557

Introduction

 大规模预训练语言模型 (PLM) 在事实知识发挥重要作用的任务中展示了强大的能力(Roberts 等人,2020 年;秦等人,2022 年)。虽然以前大多数关于探索 PLM 中事实知识的工作都集中在英语上(Davison 等人,2019 年;布拉维等人,2020 年;申等人,2020;布朗等人,2020 年;阿尔甘米等人,2021 年;Peng 等人,2022 年),一些值得注意的研究已将评估扩展到许多其他语言(Jiang 等人,2020 年;卡斯纳等人,2021 年;尹等人,2022 年)。这些研究结果表明事实知识在多大程度上跨语言泛化,揭示了现代 NLP 技术中语言不平等的另一个方面(Hupkes 等人,2022 年)。

\<img alt="" data-attachment-key="JTY72Y4D" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%225VBT7M5M%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%221%22%2C%22position%22%3A%7B%22pageIndex%22%3A0%2C%22rects%22%3A%5B%5B293.654%2C401.698%2C529.038%2C631.313%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%221%22%7D%7D" width="392" height="382" src="attachments/JTY72Y4D.png" ztype="zimage">

 然而,<span style="background-color: #5fb23680">评估跨语言的事实知识并非易事。确保结果的可比性要求以所有语言查询一组“普遍”事实,但该集合的选择可能偏向于在维基数据等流行知识库中代表性更高的特定世界区域.2相反,在世界其他地区更相关的事实(例如, 关于某一特定区域的地点或重要人物的信息)不太可能出现在基准中,这使得难以解释这种评估的结果</span>。

 在这项工作中,我们采取了不同的立场:我们没有衡量PLM在每种语言中编码的事实知识量,而是关注其跨语言的一致性。如图 1 所示,多语言 BLOOM-3b 模型当以英语、西班牙语和越南语查询时,输出始终正确完成第一个提示,但不是匈牙利语和希腊语。该模型还以英语、西班牙语和越南语(但不是匈牙利语和希腊语)对第二个查询输出一致但错误的答案,这表明前三种语言在模型中共享相关的知识表示。

 跨语言一致性 (CLC) 的研究很重要,至少有两个原因:首先,对事实的真正了解意味着无论给定的表面形式如何,都要对其含义进行编码(Ohmer 等人,2023 年)。因此,如果模型知道北京市是中国的首都,那么当用不同的语言询问相同的问题时,它应该返回相同的答案。从实际的角度来看,CLC 对于确保用户在不同语言与同一模型交互时具有相似的体验至关重要。其次,研究CLC对于了解在多语言PLM中以一种语言获得的知识是否以及如何隐含地转移到另一种语言非常重要。除了科学相关性外,这对将外部知识纳入多语言PLM具有实际意义。事实上,虽然多产的工作线侧重于模型编辑,作为以各种数据和计算效率的方式在 PLM 中插入新事实关联的一种方式(De Cao 等人,2021 年;侯等人,2022;Meng 等人,2022 年),据我们所知,还没有人研究过这如何影响直接应用编辑的语言以外的语言中的事实知识。

  我们对多语言PLM中的事实知识CLC进行了首次深入研究,并做出了以下贡献:(i)我们提出了一种新的基于排名的一致性(RankC)指标,该指标独立于准确性评估知识的一致性。(ii) 我们过滤现有的不平衡数据集(Jiang 等人,2020 年;Kassner 等人,2021 年)形成多并行 CLC 基准,平衡多语言模型分析 (BMLAMA),该基准将相同的一组提示翻译成所有语言。(iii)我们将新指标应用于BMLAMA,以评估各种仅编码器,仅解码器和编码器解码器PLM中的CLC,包括XLM-RoBERTa-large,mT5-large和BLOOM系列。我们分析了许多与CLC相关的语言属性,并为事实知识如何在语言之间渗透提供了新的见解。最后(iv)我们使用基于神经元可解释性的最先进的模型编辑技术(Meng 等人,2022 年)提供案例研究,提供初步证据,证明 CLC 可以预测插入语言 X 的事实是否会转移到语言 Y 中。

探索 PLM 中的事实知识 自 LAMA 首次提出以来(Petroni 等人,2019 年),基于提示的探测已成为评估 PLM 中事实知识的主要技术(Davison 等人,2019 年;布拉维等人,2020 年;申等人,2020;布朗等人,2020 年;阿尔甘米等人,2021 年;彭等人,2022 年)。给定元组(主体、关系、对象)中表示的知识,通过将主题填充到特定于关系的模板中来形成查询 q,该模板被馈送到 PLM 中。如果预测与对象一致,则认为模型具有此知识。例如,给定一组候选城市名称,当查询“中华人民共和国的首都是_”时,如果PLM在所有候选城市中正确答案“北京”的概率最高,则认为PLM捕获了这条知识。

事实知识的多语言探索 除了大量关注英语的著作外,一些著名的研究通过将英语提示-对象对翻译成多种语言来多语言探索事实知识。X-FACTR(Jiang 等人,2020 年)和 MLAMA(Kassner 等人,2021 年)表明,由于其培训语料库的大小,不同语言的知识量之间存在很大差异。除了英语和少数其他高资源欧洲语言外,总体上报告的探测准确性非常低(即<10%)。另一项相关工作, GeoMLAMA(Yin 等人,2022 年)专门探测了在不同地区可能有所不同的常识性知识,导致相当令人惊讶的发现,即探索某个国家(例如中国)知识的最佳语言通常不是给定国家的母语(例如中文)。所有这些研究的主要重点是评估每种语言编码的事实知识的数量,而不是了解这些知识如何在语言之间渗透。

自洽性 自洽性是指 PLM 对同一查询的保留含义的释义输出相同答案的能力。英语PLM的自洽性在不同任务中都受到了关注(Li等人,2019;米切尔等人,2022 年;王等人,2023 年)。Fierro和Søgaard(2022)通过将自洽性的研究扩展到多语言PLM,方法是在每种语言中单独测量自洽性。他们的结果显示,所有语言的自洽性都很差。

跨语言一致性 据我们所知,我们是第一个对多语言PLM中事实知识的跨语言一致性进行系统分析的公司,即PLM对不同语言提出的相同问题返回相同答案的程度。作为探索研究的一部分,Jiang等人(2020)计算了mBERT中两种语言之间重叠的正确预测的比例(参见第3.1节)。他们报告的总体比率较低,在最相似的对(英语 - 荷兰语)中只有34%的峰值,但没有进一步调查决定一致性的因素。此外,他们将这种分析限制在一个(仅编码器)模型,同时我们还检查了编码器-解码器和一系列仅解码器模型(参见第5.1节)。另一个区别是,我们对一致性采取了更全面的观点,即不正确但跨语言引用同一实体的预测也应被视为一致。</span>有趣的是,Ohmer 等人(2023 年)的并行工作建议使用模型预测的跨语言一致性作为评估其对特定单词形式之外的含义的理解的一种手段。他们在两个语言理解任务(释义识别和自然语言推理)中展示了他们的方法。尽管范围不同,但他们使用英语、德语和中文翻译对 ChatGPT 的评估表明,模型响应的一致性有限,这与我们的事实调查结果一致(参见第 5 节),并进一步表明这个问题在非常大规模的上一代 PLM 中仍然存在

3.Measuring Cross-Lingual Consistentcy

任务定义 每种语言l ∈ L有一组定义为 Ql 的查询(即提示)。对于每个查询 qi ∈ Ql,有Ni对应候选项,例如,查询“史蒂夫乔布斯为 __ 工作”有 10 个候选者:苹果、任天堂、谷歌、WWE、亚历山大、德国、雅虎、柏林、BBC、Microsoft。每个查询都会馈送到 PLM,返回的概率用于计算每个候选单词的排名分数。分数计算取决于模型的类型(仅编码器、编码器解码器或仅解码器)以及候选单词分割为子单词的方式(请参阅附录 B 中的详细信息)。按排名分数排序后,Qi 的候选集表示为 {ci1, . . . , cNi i },其中 ci1 的预测概率最高,cNi i 的预测概率最低。请注意,现有的用于知识探测的多语言数据集(X-FACTR(Jiang 等人,2020 年)和 MLAMA(Kassner 等人,2021 年))在不同语言中具有不同数量的查询,这对于衡量一致性是有问题的。

3.1Prioions Work:Correct Predictions Overlap

 基于每个 qi 和 q′ i 的预测 ci1 和 c′1 i(即排序候选列表的第一个元素),Jiang 等人 (2020) 计算正确预测的平均重叠率如下:

\<img alt="" data-attachment-key="UTGQ3CDQ" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22BSQLBJQX%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%223%22%2C%22position%22%3A%7B%22pageIndex%22%3A2%2C%22rects%22%3A%5B%5B303%2C459.39%2C527.5%2C518.39%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%223%22%7D%7D" width="374" height="98" src="attachments/UTGQ3CDQ.png" ztype="zimage">

其中 1(·) 是指示函数,oi 和 o′i 分别是 qi 和 q′ i 的正确答案。

 由于他们的基准测试包含不同语言的不同数量的查询,因此它们通过丢弃 l 或 l′ 中不可用的样本来过滤每个语言对 (l, l′) 的查询集:

\<img alt="" data-attachment-key="CKJAUHAN" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22GIHZDH3X%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%223%22%2C%22position%22%3A%7B%22pageIndex%22%3A2%2C%22rects%22%3A%5B%5B307.5%2C333.39%2C526.5%2C367.39%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%223%22%7D%7D" width="365" height="57" src="attachments/CKJAUHAN.png" ztype="zimage">

由于筛选是分别对每个语言对完成的,因此这会导致不同的查询集,这限制了它们的结果在具有非常不同的筛选集的语言对之间的可比性。

3.2This Work:RankC Metric

为了确保不同语言对之间的可比性,我们要求基准测试中的所有查询及其相应的候选查询都翻译成所有语言。因此,对于任何语言对 (l, l′),查询集的长度始终相等 |Ql|= |Ql′|,第 i 个查询 Ni = N ′ i 的候选项数也是如此。基于这些假设,我们提出了一种新的基于排名的一致性(RankC)指标,以有效地评估PLM中知识的跨语言一致性,而与准确性无关。我们不只是关注正确的预测,而是将所有候选的排名纳入考虑。RankC的灵感来自信息检索的K(MAP\@K)指标的平均平均精度(Schutze等人,2008)。与原版MAP\@K不同,在 RankC K 中因查询而异。qi 的值 K 等于 Ni,即其候选者的数量。给定语言 l 和 l′,两种语言之间的一致性分数定义为所有翻译查询对 (qi, q′ i) ∈ (Ql, Ql′) 的一致性平均值:

\<img alt="" data-attachment-key="4BUNNT2A" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22UWV6KRQ7%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%224%22%2C%22position%22%3A%7B%22pageIndex%22%3A3%2C%22rects%22%3A%5B%5B72%2C596.89%2C292.5%2C645.39%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%224%22%7D%7D" width="368" height="81" src="attachments/4BUNNT2A.png" ztype="zimage">

每个查询对的一致性是通过加权平均 P @j 函数计算的,该函数输出具有前 j 个最高概率的候选函数之间的重叠比率3:

\<img alt="" data-attachment-key="9E3DW5HT" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22IP7IB4WX%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%224%22%2C%22position%22%3A%7B%22pageIndex%22%3A3%2C%22rects%22%3A%5B%5B71.5%2C453.39%2C291%2C536.89%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%224%22%7D%7D" width="366" height="139" src="attachments/9E3DW5HT.png" ztype="zimage">

每个 P @j的权重 wj 定义如下。

基于排名的权重 直观地说,排名较高的候选人应该对一致性分数产生更大的影响。为了实现这一目标,RankC 对所有 P @js采用加权平均值,其中 j 较小的 P @j被赋予较高的权重 wj,以强调具有高概率的候选人的影响。但是,预测概率不能直接使用,因为它们对于 qi 和 q′ i 的候选者是不同的。为了解决这个问题,我们引入了基于softmax的归一化权重,而不是值j:

\<img alt="" data-attachment-key="SGCTJSZD" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22B2LWRTBH%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%224%22%2C%22position%22%3A%7B%22pageIndex%22%3A3%2C%22rects%22%3A%5B%5B71.5%2C223.39%2C292%2C274.89%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%224%22%7D%7D" width="368" height="86" src="attachments/SGCTJSZD.png" ztype="zimage">

其中 Ni 是查询 qi 和 q′ i.4 的候选数量 结合等式 3、4 和 5,RankC 指标变为:

\<img alt="" data-attachment-key="ML4DE4BX" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22UUK6AGQ7%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%224%22%2C%22position%22%3A%7B%22pageIndex%22%3A3%2C%22rects%22%3A%5B%5B69.5%2C92.89%2C291.5%2C180.89%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%224%22%7D%7D" width="370" height="147" src="attachments/ML4DE4BX.png" ztype="zimage">

附录D给出了RankC计算示例,以及高/低RankC的解释

\<img alt="" data-attachment-key="UNBA9DMX" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22JHHBPXWD%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%224%22%2C%22position%22%3A%7B%22pageIndex%22%3A3%2C%22rects%22%3A%5B%5B299%2C662.89%2C527.5%2C774.89%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%224%22%7D%7D" width="381" height="187" src="attachments/UNBA9DMX.png" ztype="zimage">

 我们在同一数据集上对RankC与以前使用的指标(COverlap,参见公式1)进行了实证比较。附录F中的结果表明,<span style="background-color: #2ea8e580">几乎所有具有高COVERLAP分数的语言对也获得了较高的RankC分数。此外,RankC揭示了一些新的高一致性对,由于探测精度低,它们的COverlap评分较低。</span>

4.Experimental Setup

数据集 如第 3.2 节所述,RankC 要求将查询及其候选语言翻译成所有评估语言。因此,我们从 X-FACTR(Jiang 等人,2020 年)和 MLAMA(Kassner 等人,2021 年)中提取所有满足此标准的查询。我们将生成的多并行数据集称为平衡多语言模型分析(BMLAMA),并以两个版本发布:BMLAMA-17,包括17种语言的6.7k查询(接近X-FACTR,包括23种语言),BMLAMA-53包括53种语言的3k查询(与MLAMA相同)。详细统计数据如表1所示。

模型 多语言知识探索的先前工作(Jiang等人,2020;Kassner 等人,2021 年)专注于仅编码器的 PLM,例如 mBERT(Devlin 等人,2019 年)或 XLM-RoBERTa(Liu 等人,2019 年)。然而,由于纯解码器 PLM 已成为当前 NLP 时代的主流,我们的实验还包括仅解码器的 BLOOM 系列(560m、1.1b、1.7b、3b 参数)(Scao 等人,2022 年)和编码器-解码器 mT5large (1.2b)(Xue 等人,2021 年),此外还包括仅编码器的 XLM-RoBERTa-large(354m)。

5.Main Consistency Result

在查看一致性之前,我们在图 2 中展示了 BMLAMA-17.5 上三个 PLM 的实际探测精度结果,我们首先注意到,仅编码器 XLM-RoBERTa-large 和编码器解码器 mT5-large 模型在平均探测精度方面优于整个仅解码器的 BLOOM 系列。三种型号的跨语言趋势相似,但是,BLOOM以远高于所有其他语言的英语准确性脱颖而出。关于模型大小(BLOOM 系列,绿条),我们发现增加参数数量会导致事实探测精度的轻微但一致的提高,这与以前的工作一致(Petroni 等人,2019 年)。

我们的XLM-RoBERTa-large结果与Jiang等人(2020)在XFACTR上报告的结果一致,证明了我们的多并行数据集BMLAMA的可靠性。

5.1Consistency in Different PLMs

图 3 显示了三种 PLM 的 RankC 结果。第一个观察结果是,所有模型的平均一致性6都相低,BLOOM3b(25%)最低。这一阴性结果与Jiang等人(2020)在mBERT上观察到的正确预测的低重叠率一致。

 <span style="background-color: #ff666680">我们现在放大了不同语言对之间的比较,这是通过新的RankC指标和平衡数据集BMLAMA实现的。在这里,我们发现欧洲语言英语,法语,荷兰语,西班牙语和加泰罗尼亚语在mT5-large和XLM-RoBERTa-large方面共享了相当多的知识。类似的模式适用于BLOOM-3b,但荷兰语除外,这是意料之中的,因为该语言未包含在此模型的训练语料库中。此外,越南语和土耳其语在所有PLM中都与上述欧洲语言实现了显着的一致性。这些语言的一个共同特点是它们都使用相同的脚本(拉丁语)。另一个值得注意的高一致性对是俄语和乌克兰语,使用相同脚本(西里尔文)并且也密切相关的两种语言。这些观察表明,各种语言属性会影响多语言知识的CLC。我们将在第 6.1 节中检查许多此类属性。</span>

5.2Effect of Model Size

如上所述(图 2 中的绿条)和之前的工作(Petroni 等人,2019 年)所观察到的,当其他因素固定时,检索正确知识的能力会随着模型大小的增长而增长。我们问CLC是否也是如此。然而,图4中的BLOOM结果显示,从我们系列中最小的模型移动到最大的模型时,平均RankC(+2%)只有很小的变化,即参数增加了5倍。虽然这种模式不能安全地推广到其他模型,但它确实表明,在非常大规模的PLM中,跨语言一致性可能仍然是一个问题8。

6.Typological Similarity

类型学特征已被证明可用于模拟语言之间的细粒度相似性,并指导各种多语言 NLP 任务的迁移学习技术(Ponti 等人,2019 年;尤斯图恩等人,2022 年)。这些特征是否也能解释在多语言PLM中观察到的事实知识一致性的一些差异?例如,我们可能期望具有相似语法和词序或具有相关词汇的语言共享更高的语言程度。在多语言模型中。我们可能还期望在同一世界地区使用的语言更有可能在训练数据中遇到相同实体和事件的提及。

 为了回答这个问题,我们从lang2vec(Littell等人,2017)获得了四种类型的<span style="background-color: #2ea8e580">类型相似性(句法,遗传,地理和语音)</span>,这是一个开源库,提供基于各种类型学数据库的预先计算的相似性.9接下来,我们计算RankC分数与BMLAMA中所有语言对的类型相似性之间的皮尔逊相关系数(Cohen等人,2009)。

 表2显示了BMLAMA-17和较小但多语言的BMLAMA-53.10的结果 对于BMLAMA-17,<span style="background-color: #ff666680">我们发现RankC与遗传相似性具有中等相关性,与地理相似性具有弱相关性,但与句法相似性没有显着相关性。正如预期的那样,没有观察到与语音相似性的相关性。更全面的数据集BMLAMA-53上的相关性结果相似,除了句法相似性获得弱正相关。</span>有点令人惊讶的是,在这个更大的数据集中,<span style="background-color: #5fb23680">遗传和地理上的相似性使它们的相关性略有下降,这可能是由于低资源语言的类型向量中存在噪声。</span>

 遗传相关语言的一个重要特征是它们往往有很多单词共同或具有共同祖先。<span style="background-color: #ff666680">因此,RankC与遗传相似性的中等相关性,加上与句法和地理相似性的弱相关性,表明词汇重叠可能是CLC比具有相似的语法和词序或在附近地区使用更重要的因素。</span>

6.2Subword Vocabulary Overlap

基于上述观察结果,我们研究了词汇重叠的粗略测量是否也可以很好地预测CLC。具体来说,我们提取了我们评估语言中严格平行语料库的词汇表,并测量它们的成对重叠:

\<img alt="" data-attachment-key="9DVJYQ7U" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22Q2E54XNM%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%227%22%2C%22position%22%3A%7B%22pageIndex%22%3A6%2C%22rects%22%3A%5B%5B70.385%2C344.005%2C291.923%2C381.505%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%227%22%7D%7D" width="369" height="62" src="attachments/9DVJYQ7U.png" ztype="zimage">

我们考虑两个语料库:BMLAMA 本身和 Flores-200(Costa-jussà 等人,2022 年)。前者预计非常相关,但由此产生的相关性可能不太可推广,因为它是衡量一致性本身的同一语料库。相比之下,后者是一组混合域的 2k 个句子,从英语翻译成 200 种语言,用于机器翻译评估。因为我们对不同语言使用完全相同的单词表示的程度感兴趣,所以我们在测量词汇重叠之前用模型的分词器对语料库进行分割,这使得这个指标模型依赖于。

 如表2(右)所示,BMLAMA上的皮尔逊相关分数证明,<span style="background-color: #ff666680">子词词汇重叠对PLM中知识的跨语言一致性有显著的强烈影响,掩盖了遗传的影响</span>

\<img alt="" data-attachment-key="7UYEHQJN" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22I4F9IANM%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%227%22%2C%22position%22%3A%7B%22pageIndex%22%3A6%2C%22rects%22%3A%5B%5B294.808%2C500.928%2C528.462%2C596.698%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%227%22%7D%7D" width="389" height="159" src="attachments/7UYEHQJN.png" ztype="zimage">

相似。这表明事实知识可能主要以相当肤浅的方式(通过共享使用一些子词嵌入)渗透到语言之间,相反,即使语言相关,在没有这种锚点的情况下,它也可能受到阻碍。例如,BLOOM-3b中一致性最高的对是乌克兰语-俄语,它们位于语言树中(遗传相似性:0.8),并且总体上共享大量子词词汇(词汇重叠:0.76)。然而,在查询大卫·卡梅伦的工作地点时,BLOOM-3b预测的是俄语查询(“伦敦”)中的正确答案,但乌克兰语(“莫斯科”)中的错误答案。这表明正确的知识没有从俄语转移到乌克兰语,因为这两个查询之间的子词重叠有限(0.17)。当在Flores上测量词汇重叠时(表2的最后一列),相关性较低,但仍然显着为正,表明我们的发现不仅限于我们的基准。跨语言知识一致性与词汇重叠之间的相关性如图5所示。CLC对浅词汇重叠的强烈依赖部分解释了为什么增加模型大小没有积极的影响(参见第5.2节)。我们推测,较大的子单词词汇实际上可能导致较低的一致性,因为在任何两种语言之间共享部分单词的机会会降低。我们将对这一假设的进一步调查留给未来的工作。

7.Case Study: Cross-Lingual Consistency and Knowledge Incorporation

之前的工作(Jiang et al., 2020;Kassner et al., 2021;Artetxe et al., 2022)和我们的探索结果表明,低资源语言的知识量是有限的。简单地在更大的非英语语料库上训练新的 PLM 非常耗时,而且大多数大学和其他研究机构都无法承担其成本(Ding 等人,2022)。一个有前景的解决方案是通过微调方法整合外部知识(Hu et al., 2022)或以非常有针对性的方式直接编辑 PLM 的权重(De Cao et al., 2021;Meng et al., 2022)。为了使该过程在多语言场景中可行并避免意外影响,重要的是要了解以一种语言插入知识是否以及如何影响 PLM 中的其他语言,包括最易受影响和最不易受影响的语言。在本节中,我们将针对这个问题及其与 CLC 的相互作用进行第一个案例研究。

Rank-One 模型编辑(ROME)由Meng 等人提出。 (2022),这种基于神经元可解释性的最先进的模型编辑技术在特异性和泛化方面都优于其他几种编辑技术。简而言之,该技术直接修改 PLM 早期前馈层中的权重,其中事实关联已通过因果干预找到。

反事实知识 遵循孟等人。 (2022),我们考虑将反事实知识插入 PLM 的任务,例如事实上错误的“史蒂夫·乔布斯曾为微软工作”。由于在预训练期间从未观察到此类事实关联,因此这种方法避免了插入模型已认为可能的事实的风险。

案例研究 我们研究了 BLOOM-3b,因为 ROME 目前仅适用于仅解码器模型。选择英语作为插入事实的源语言。作为目标语言,我们选择两种与英语具有高度一致性(RankC)的语言(西班牙语和越南语)和两种RankC 较低(匈牙利语和希腊语)。这些语言在脚本和与英语的相关性方面也各不相同。通过确保 PLM 在编辑之前选择最有可能的最初正确答案来挑选六个查询。我们还确保,对于每个编辑的知识,主题和客体实体在所有语言中都是相同的标记。这消除了这样的担忧:例如,西班牙语和越南语仅仅因为所评估的查询中主语和宾语标记的词汇共现而获得与英语一致的预测。对于评估,我们遵循孟等人的设置。 (2022)并将候选集缩小为两个单词——一个正确,一个错误。后者是ROME的编辑目标。根据每个查询,PLM 计算正确和错误答案的 logit 值,分别为 logitC 和 logitW。这些 logits 在不同语言之间差异很大。为了关注原始事实和编辑事实之间的关系,我们按照之前的工作(Sarti et al., 2023)将 logits 标准化为

\<img alt="" data-attachment-key="JTSVCJAA" data-annotation="%7B%22attachmentURI%22%3A%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRSQJFTAR%22%2C%22annotationKey%22%3A%22LQTSE2UG%22%2C%22color%22%3A%22%23ffd400%22%2C%22pageLabel%22%3A%228%22%2C%22position%22%3A%7B%22pageIndex%22%3A7%2C%22rects%22%3A%5B%5B300.577%2C424.775%2C526.731%2C775.544%5D%5D%7D%2C%22citationItem%22%3A%7B%22uris%22%3A%5B%22http%3A%2F%2Fzotero.org%2Fusers%2Flocal%2FiUeV0SQs%2Fitems%2FRHFZGHTF%22%5D%2C%22locator%22%3A%228%22%7D%7D" width="377" height="585" src="attachments/JTSVCJAA.png" ztype="zimage">

 表 3 显示了三个查询的结果。一个非常清晰的模式出现了:<span style="background-color: #ff666680">当一个事实被插入到英语中时,它会一致地传播到高 CLC 语言(即西班牙语和越南语)。相反,低 CLC 语言(匈牙利语和希腊语)受到的影响要小得多,即使在模型编辑后,仍然会输出更高的正确答案概率。</span>附录 J 中给出的其余三个查询显示了相同的模式。

尽管我们的研究规模较小,但结果表明,<span style="background-color: #5fb23680">CLC 不仅是 PLM 中现有知识的副产品,而且还代表了在将新知识融入其他语言时对语言扰动的敏感性。</span>我们认为这是增强多语言场景中模型编辑优势的一个有前途的方向。

8.Conclusion

我们分析了多语言大型 PLM 中事实知识的跨语言一致性 (CLC)。我们提出了一个新的指标 RankC,用于独立于准确性来量化一致性,并将其应用于跨语言平衡的事实知识基准。我们的综合分析表明,(i) 不同 PLM 的平均 CLC 较低,并且不受模型大小的明显影响; (ii) PLM 内不同语言对的 CLC 与遗传相似性显着相关,但与词汇重叠的相关性明显更强; (iii) 通过模型编辑插入到语言 X 中的新事实更有可能传播到具有 X 的 CLC 分数较高的语言。

Limitations

由于 GPU 资源的限制,我们无法测试大于 BLOOM-7.1b 的模型。鼓励在未来的工作中将我们的分析扩展到更大规模的模型,看看是否得出相同的结论。然而,图4的结果表明,随着模型规模的增加,平均CLC增长极其缓慢。 BMLAMA 中包含的事实虽然被认为具有普遍性,但可能与西方世界更相关,这可能会在评估中引入偏见。我们从 BMLAMA 所建立的基准中继承了这个问题。解决这个问题并非易事,特别是在比较工作中,需要探究跨语言的确切事实集,并且应该在未来的工作中予以关注。