基于提示的零样本关系抽取方法探索
Abstract
零样本关系抽取是处理现实世界中缺乏标记数据的新兴关系的重要方法。然而,主流的两塔零样本方法通常依赖于预定义关系的大规模域内标记数据。在这项工作中,我们将零样本关系提取视为一种通过提示调整优化的语义匹配任务,当预定义关系的标记数据极其稀缺时,它仍然保持优异的泛化性能。为了最大限度地提高数据利用的效率,我们引入了一种提示调整技术来引出预训练语言模型(PLM)中现有的关系知识,而不是直接进行微调。此外,在训练过程中模型接触到的关系描述很少,我们认为这是两塔方法的性能瓶颈。为了突破瓶颈,我们在编码过程中直接对关系实例及其描述之间的语义交互进行建模。在两个学术数据集上的实验结果表明:(1)我们的方法在预定义关系的不同样本上大幅优于之前最先进的方法; (2)这种优势在资源匮乏的情况下会进一步放大。
Introduction
近年来,人们对从发票、采购订单、纳税申报表等各种垂直领域的类似表单的文档中提取结构化信息越来越感兴趣。[Zhao、Wu 和 Wang 2019;林等人。 2020;于等人。 2019]。在本文中,我们重新审视关键信息提取(KIE)问题,即从给定文档中提取一组键的值[Huang et al. 2017]。 2019]。例如,在图 1 中,给定一组键(“电话”、“总计”)和左侧收据文档,KIE 任务旨在提取“电话”的值“03-55423228”和“电话”的值“50.60”全部的”。提取的结构化信息对于广泛的下游任务至关重要,例如知识库构建、问答、文档理解等[Liu and Croft 2002;吴森等人。 2018; Geva 和 Berant 2018]。
