论文笔记:BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision

前言

论文:https://arxiv.org/pdf/2006.15509.pdf

代码:https://github.com/cliang1453/BOND

摘要

论文研究了远程监督下的开放域命名实体识别(NER)问题。远程监督虽然不需要大量的人工标注,但通过外部知识库产生高度不完整和噪声的远程标签。为应对这一挑战,论文提出一种新的计算框架——BOND,利用预训练语言模型(如BERT和RoBERTa)的力量来提高NER模型的预测性能。具体而言,提出了一种两阶段的训练算法:第一阶段,使用远程标签使预训练语言模型适应NER任务,可以显著提高召回率和准确率;在第二阶段,删除了远程标签,并提出了一种自我训练的方法,以进一步提高模型的性能。在5个基准数据集上的彻底实验表明,BOND比现有的远程监督NER方法具有优越性。

挑战

  • 第一个挑战是不完全标注,这是由现有知识库的覆盖率有限造成的。这个问题导致许多实体不匹配,并产生许多假阳性标签,这可能会显著损害后续的NER模型训练。
  • 第二个挑战是噪声标注。由于标注的模糊性,标注往往是有噪声的——同一个实体可以映射到知识库中的多种实体类型。例如,实体提到“利物浦”可以映射到知识库中的“利物浦城市”(类型:LOC)和“利物浦足球俱乐部”(类型:ORG)。现有方法采用基于类型流行度的标签归纳方法,可能会导致对流行类型的匹配偏差。因此,它会导致许多假阳性样本,并损害NER模型的性能。

通常在标签精度和覆盖率之间存在权衡:生成高质量的标签需要设置严格的匹配规则,这可能不会对所有标签都很好地泛化,从而降低覆盖率并引入假阴性标签。另一方面,随着标注覆盖率的提高,由于标注歧义性,标注错误的数量也在不断增加。综上所述,生成对目标语料库具有高覆盖率的高质量标签仍然是非常具有挑战性的。

继续阅读论文笔记:BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision

论文笔记:RNG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering

论文:https://arxiv.org/pdf/2109.08678.pdf

整体架构

Enumeration of Candidates

实体识别和实体链接

Logical Form Ranking

排名器是基于BERT双编码器(以输入问题-候选对作为输入)经过训练,以最大限度地提高基本事实逻辑形式的分数,同时最大限度地减少不正确候选者的分数。

扩展了提出的逻辑形式排序器,保持架构和逻辑相同,用于实体消歧任务,并展示其作为第二阶段实体排序器的有效性。

Target Logical Form Generation

有了候选的排名列表,引入了一个生成模型来组成以问题为条件的最终逻辑形式和我们的排名器返回的前 k 个逻辑形式。 生成器是从 Raffel 等人实例化的基于转换器的 seq-to-seq 模型,因为它在生成相关任务中表现出强大的性能。 如图所示,通过连接问题和由分号分隔的排名器返回的前 k 个候选者(即 [x; ct1; …; ctk])来构建输入。

GRAILQA 是第一个评估零样本泛化的数据集。 具体来说,GRAILQA 总共包含 64,331 个问题,并仔细拆分数据,以评估 KBQA 任务中的三个泛化级别,包括 i.i.d. 设置、构图设置(泛化到看不见的构图)和零镜头设置(泛化到看不见的 KB 模式)。 我们在图中展示了组合泛化( compositional generalization )和零样本泛化( zero-shot generalization)的示例。测试集中每个设置的分数分别为 25%、25% 和 50%。 除了泛化挑战之外,GRAILQA 还存在额外的困难,包括大量涉及的实体/关系、逻辑形式的复杂组合性(最多 4 跳)以及问题中提到的实体的噪声。

论文笔记:Unified Structure Generation for Universal Information Extraction

前言

论文:https://arxiv.org/pdf/2203.12277.pdf

代码:https://github.com/universal-ie/UIE

动机

  1. 信息抽取旨在从非结构化文本中识别并结构化用户指定的信息(user-specified information)
  1. IE任务是高度多样化的,由于:
  • varying targets(entity / relation / event / sentiment…)
  • heterogeneous structures(span / triplet / record…)
  • demand-specific schemas
  1. 然而,目前,多数方法是任务特定的(task-specialized),导致对于不同的IE任务需要构建:
  • dedicated architectures(专门的结构
  • isolated models(孤立的模型)
  • specialized knowledge sources(利用专门的知识源)
  1. 上述,任务特定的解决方案,阻碍了IE系统的
  • rapid architecture development(快速的结构发展):为大量的IE tasks / settings / scenarios 构建专门的结构过于复杂
  • effective knowledge sharing(有效的知识共享):孤立的模型限制了相关任务或者设置之间的知识共享
  • quick cross-domain adaptation(快速的跨领域适应):为不同的任务构建数据集:成本高、耗时
  1. 由此,论文提出Universal IE,即:
  • 统一建模不同的IE任务
  • 自适应地预测异构的结构
  • 有效从不同数据源进行学习
  1. 挑战:如何自适应地控制抽取过程?
  • 不同的目标结构
  • 不同的schema

主要贡献

  • 提出了a unified text-to-structure generation architecture
  • 设计structured extraction language和structural schema instructor(SSI)
  • 首个text-to-generation的预训练抽取模型,对后续研究有益
  • 在低资源、少样本场景中表现出on-demand adaptation ability,验证了方法的有效性、通用性、可迁移性

方法创新(SSI+Text⇒SEL)

UIE结构图

UIE方法

  1. 将所有的IE任务都建模为 text-to-structure transformations
    • 将不同的任务都分解为一系列的原子转化操作,包括:
      • spotting:
        • 定位与给定的语义类型相关的span
        • 例如:steve是一个person实体
      • associating:
        • 链接不同的span,并给他们分配预定义的schema涉及的语义角色
        • 例如:将steve和apple链接,分别将其视为work-for关系的arg1和arg2
    • 上述做法可以使所有的IE任务都共享相同的、底层的spotting和associating操作
  2. structured extraction language(SEL)(为了建模不同的IE结构)
    •  基本元素:
      • SpotName:span的类型
      • AssoName:association的类型
      • InfoSpan:具体的span内容
    •  结构:( Spot Name:Info Span (Asso Name:Info Span) )
SEL结构
  1. structural schema instructor(SSI)(为了自适应地生成不同的目标结构)
    • a schema-based prompt mechanism,用来控制:
      • what to spot
      • what to associate
      • what to generate
    • 构建提示作为输入,基本元素:
      • SpotName
      • AssoName
      • special symbols([spot] / [asso] / [text])
    • 结构:[spot] xx [spot] xx … [asso] xx [asso] xx … [text] x_1, x_2, … , x_n
  2. A large-scale pre-trained text-to-structure model(为了从不同数据源学习通用的IE能力)
    • 三个预训练数据集
      • D_pair
      • D_text
      • D_record
    • 三个任务,联合训练
      • D_pair:同时优化编码器、解码器
      • D_text:同时优化编码器、解码器(masked生成)
      • D_record:仅优化解码器(语言模型)
    • 微调:防止暴露偏差,引入rejection mechanism (RM),即引入噪音,例如(facility: [NULL])
  3. 整体的流程
  • 根据任务 / schema,构建SSI
  • 拼接SSI和text,输入模型
  • 生成SEL
  • 后处理形成最终结果