论文笔记:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

前言

论文:https://arxiv.org/pdf/1908.10084.pdf

代码:https://github.com/UKPLab/sentence-transformers

摘要

BERT和RoBERTa在句子对回归任务,如语义文本相似度(STS)上取得了新的最先进的性能。然而,它需要将两个句子都输入到网络中,这会导致巨大的计算开销:使用BERT在10,000个句子的集合中找到最相似的一对,需要大约5000万次推理计算(~65小时)。BERT的构造使其不适合语义相似性搜索以及聚类等无监督任务。

论文提出sentence -BERT (SBERT),一种预训练BERT网络的修改,使用孪生和三元网络结构来得到有语义的句子嵌入,可以用余弦相似度进行比较。这将寻找最相似的一对的工作量从BERT / RoBERTa的65小时减少到SBERT的大约5秒,同时保持BERT的准确性。

在常见的STS任务和迁移学习任务上评估了SBERT和SRoBERTa,其表现优于其他最先进的句子嵌入方法。

动机

BERT使用交叉编码器:将两个句子传递给transformer网络,并预测目标值。然而,由于可能的组合太多,这种设置不适合各种对回归任务。有些任务到目前为止并不适用于BERT。这些任务包括大规模的语义相似性比较、聚类和基于语义搜索的信息检索。

解决聚类和语义搜索的一种常见方法是将每个句子映射到向量空间,使语义相似的句子接近。研究人员已经开始将单个句子输入到BERT中,并获得固定大小的句子嵌入。最常用的方法是平均BERT输出层(称为BERT嵌入)或使用第一个标记的输出([CLS]标记)。但是,这种常见做法产生了相当糟糕的句子嵌入,通常比平均GloVe嵌入更糟糕。

继续阅读论文笔记:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

论文笔记:Deep Short Text Classification with Knowledge Powered Attention

前言

论文:https://arxiv.org/pdf/1902.08050.pdf

代码:https://github.com/AIRobotZhang/STCKA

摘要

短文本分类是自然语言处理(NLP)中的重要任务之一。与段落或文档不同,短文本由于没有足够的上下文信息而更加模糊,这对分类提出了很大的挑战。论文通过从外部知识源检索知识来增强短文本的语义表示。将概念信息作为一种知识,并将其纳入深度神经网络。为了度量知识的重要性,引入了注意机制,并提出了基于知识驱动注意的短文本深度分类(STCKA)。利用概念对短文本(CST)的注意和概念对概念集(C-CS)的注意,从两个方面获取概念的权重。并利用概念信息对短文本进行分类。与传统方法不同的是,STCKA模型就像一个人一样,具有基于观察(即机器的训练数据)做出决策的内在能力,并且更加关注重要的知识。还针对不同的任务在四个公共数据集上进行了广泛的实验。实验结果和案例研究表明,STCKA模型优于最先进的方法,证明了知识驱动注意力的有效性。

挑战

挑战1

相对于段落或文档,短文本由于缺乏足够的上下文信息而具有更强的歧义性,这给短文本分类带来了巨大挑战。短文本分类主要可以分为显式表示和隐式表示两类。

  • 显式模型具有可解释性,便于人类理解。然而,这种显式表示通常忽略了短文本的上下文,无法捕捉深层语义信息。
  • 基于深度神经网络的隐式模型擅长捕捉短文本中的语法和语义信息。然而,它忽略了知识库中存在的isA、isPropertyOf等重要的语义关系。这些信息有助于理解短文本,特别是在处理未见过的单词时。

该文将短文本的显式和隐式表示融合到一个统一的深度神经网络模型中。在YAGO和Freebase等显式KBs的帮助下丰富了短文本的语义表示。这允许模型从短文本中没有明确声明但与分类相关的外部知识源检索知识。概念信息作为一种知识对分类是有帮助的。因此,该文利用isA关系,将短文本与知识库中的相关概念进行概念化关联。然后,将概念信息作为先验知识融入深度神经网络。

挑战2

尽管简单地将概念信息集成到深度神经网络中似乎很直观,但仍然存在两个主要问题。

  • 首先,在对短文本进行概念化时,由于实体的歧义性或KBs中的噪声,容易引入一些不恰当的概念。例如,在短文本S2:“Alice has been using Apple for 10 more years”中,从KB中获取了Apple的fruit和mobile phone两个概念。显然,fruit在这里不是一个合适的概念,这是由于Apple的模糊性造成的。
  • 其次,需要考虑概念的粒度和概念的相对重要性。例如,在短文本S3:“Bill Gates is one of the co-founders of Microsoft”中,从KB中检索了person和entrepreneur of Bill Gates的概念。虽然它们都是正确的概念,但企业家比人更具体,在这种情况下应该被赋予更大的权重。之前的工作利用网络规模的KBs来丰富短文本表示,但没有仔细解决这两个问题。

为了解决这两个问题,该文引入注意力机制,提出了基于知识驱动注意力的深度短文本分类(STCKA)。注意力机制被广泛用于获取向量的权重,在许多NLP应用中,包括机器翻译、摘要生成和问答。针对第一个问题,使用面向短文本的概念注意力(Concept towards Short Text,CST)来衡量短文本与其对应概念之间的语义相似度。该模型赋予S2中mobile phone概念较大的权重,因为它与短文本的语义相似度高于fruit概念。针对第二个问题,使用面向概念集的注意力(Concept towards Concept Set,C-CS)来探索每个概念相对于整个概念集的重要性。模型为S3中的概念企业家分配了更大的权重,这对特定的分类任务更具区分性。

引入一种软开关(soft switch)来将两个注意力权重组合为一个,并产生每个概念的最终注意力权重,该模型在不同的数据集上自适应地学习。然后对概念向量进行加权求和,得到概念表示;此外,充分利用短文本的字和词两级特征,并利用自注意力机制生成短文本表示;最后,根据短文本的表示及其相关概念对短文本进行分类。

继续阅读论文笔记:Deep Short Text Classification with Knowledge Powered Attention

论文笔记:Calculating Question Similarity is Enough: A New Method for KBQA Tasks

摘要

知识库问答(KBQA)的目的是在外部知识库的帮助下回答自然语言问题。其核心思想是找到问题背后的内部知识与知识库中已知三元组之间的联系。传统的KBQA任务piplines包含实体识别、实体链接、答案选择等步骤。在这种pipline方法中,任何过程中的错误都会不可避免地传播到最终的预测。为了解决这一问题,论文提出了一种基于预训练语言模型的语料库生成-检索方法(Corpus Generation – Retrieve Method,CGRM)。主要的创新之处在于新方法的设计。其中,知识增强T5 (kT5)模型旨在基于知识图谱三元组生成自然语言QA对,并通过检索合成数据集直接求解QA。该方法可以从PLM中提取更多的实体信息,提高精度,简化过程。我们在NLPCC-ICCPOL 2016 KBQA数据集上测试了我们的方法,结果表明该方法提高了KBQA的性能,并且与最先进的方法相比具有竞争力。

背景和挑战

问答系统是自然语言处理领域长期以来的研究热点。一个方向是将已有的知识库用于自然语言问题,称为知识库问答(Knowledge Base Question Answering, KBQA)。目前KBQA的主流方法是将当前问句的实体链接到KBQA实体中,利用句子中出现的关系归纳到知识图谱中得到最终答案。目前,KBQA任务主要通过一组分步处理的pipline来解决,包括实体识别、关系抽取、实体链接、答案选择,如图1所示。在应用上述pipline方法时,中途发生的任何错误都会影响到后续所有的pipline链接,从而在很大程度上降低整个KBQA系统的性能。

图1
继续阅读论文笔记:Calculating Question Similarity is Enough: A New Method for KBQA Tasks

论文笔记:LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching

前言

论文:https://arxiv.org/pdf/2102.12671.pdf

代码:https://github.com/lbe0613/LET

摘要

中文短文本匹配是自然语言处理中的一项基本任务。现有方法通常以汉字或词作为输入。它们有两个局限性:1)部分中文词语多义词多,语义信息没有得到充分利用;2)一些模型存在分词带来的潜在问题。该文引入HowNet作为一个外部知识库,并提出了一个语言知识增强图Transformer (LET)来处理单词歧义问题。此外,采用词格图作为输入,以维护多粒度信息。该模型还补充了预训练语言模型。在两个中文数据集上的实验结果表明,该模型优于多种典型的文本匹配方法。消融研究也表明,语义信息和多粒度信息对文本匹配建模都很重要。

挑战

  • 大量的中文词语是多义词,给语义理解带来了很大的困难。短文本中的词多义现象比长文本中的词多义问题更严重,因为短文本通常具有较少的上下文信息,因此模型很难捕捉到正确的语义。
  • 基于词的模型通常会遇到一些由分词引起的潜在问题

解决方法

  • 为了整合词语的语义信息,引入了HowNet作为外部知识库。
  • 许多研究人员提出了词格图,它保留了词库中存在的词,从而保留了不同的分词路径。研究表明,多粒度信息对于文本匹配具有重要意义。

前导知识

HowNet

HowNet是一个人工为每个汉语词义标注一个或多个相关义原的外部知识库。HowNet哲学将义原视为一个原子的语义单位。与WordNet不同,义原强调概念的组成部分和属性可以用义原很好地表示。HowNet已被广泛应用于词语相似度计算、情感分析、词语表示学习和语言建模等自然语言处理任务中。图2给出了一个例子。“苹果”这个词有两个意思,包括苹果品牌和苹果。苹果品牌有五个义原,分别是computer、PatternValue、able、bring和SpecificBrand,这五个义原描述了sense的确切含义。

阅读更多:论文笔记:LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching

模型架构

LET由4部分组成:输入模块、语义感知图转换器(SaGT)、句子匹配层和关系分类器。输入模块输出每个单词wi的初始上下文表示和每个词义的初始语义表示。SaGT迭代更新单词表示和语义表示,并融合彼此的有用信息。句子匹配层首先将词表示融入字符级,然后利用双边多视角匹配机制对两个字符序列进行匹配。关系分类器将句子向量作为输入,预测两个句子之间的关系。

输入模块

Contextual Word Embedding

上下文词嵌入对于图中的每个节点xi,单词wi的初始表示是上下文字符表示的注意力池化。假设单词wi由一些连续的字符tokens{ct1, ct1+1,···,ct2} 组成,对于每个字符ck (t1≤k≤t2),用一个两层的前馈网络(FFN)计算一个基于特征的得分向量,然后用基于特征的多维softmax (MD-softmax)进行归一化。

公式7

将对应的字向量ck与归一化得分uk进行加权,得到上下文词向量。

公式8

使用Att-Pooling(·)将公式7和公式8重写为:

Sense Embedding

上述的词嵌入vi只包含上下文字符信息,在中文中可能会出现多义词的问题。该文采用HowNet作为外部知识库来表示词语的语义信息。

对于每个单词wi,将词义集合表示为S (wi) = {si,1, si,2,···,si,K}。si,k是wi的第k个义原,表示其对应的义原为O(si,k)。为了得到每个义项si,k的嵌入向量,首先得到每个义原的多维注意力表示:

公式10

其中e是义原o的嵌入向量,由义原注意力目标模型(SAT)产生。然后,对于每个义原si,k,其嵌入通过对所有义原表示的注意力池化得到:

公式11

Semantic-aware Graph Transformer

对于图中的每个节点xi,词嵌入vi只包含上下文信息,而义原嵌入si,k只包含语言知识。为了从彼此中获取有用的信息,论文提出了SaGT。首先以vi和si,k分别作为单词wi的初始词表示hi和词义初始义表示gi,k,然后分两步迭代更新它们。

更新Sense Representation

对于多义的词,应该用哪个义通常是由句子中的上下文语境决定的。因此,在更新表示时,每个词义将首先从xi的前向和后向聚合单词的有用信息。

其中两个多维注意力函数MD-GAT(·)具有不同的参数。

[·,·]表示向量的拼接,值得注意的是,没有直接使用mi,k作为新表示gi,k。原因是mi,k只包含上下文信息,需要利用一个门,例如GRU,来控制上下文信息和语义信息的融合。

更新Word Representation

经过多次迭代,最终的词表示不仅包含上下文单词信息,还包含语义知识。对于每个句子,使用hai和hbi分别表示最终的单词表示。

句子匹配层(Sentence Matching Layer)

在获取了每个句子的语义知识增强的词表示后,将这些词信息融合到字符中。

从而得到语义知识增强的字符表示yt

其中LayerNorm(·)表示层规范化,cat是使用BERT获得的上下文字符表示。对于每个字符cat ,利用多维注意力分别从句子Ca和Cb中聚合信息。

上述多维注意力函数MD-GAT(·)共享相同的参数。通过这种共享机制,该模型具有一个很好的特性,即当两个句子完全匹配时有:

我们利用多角度余弦距离进行比较:

通过P个距离d1、d2、···、dP,可以得到最终的字符表示

最终的字符表示包含三种信息:上下文信息、词义知识和字符级相似度。对于每个句子Ca或Cb,使用句子所有最终字符表示的注意力池化得到句子表示向量ra或rb

Relation Classifier

模型将预测两个句子的相似度:

其中FFN(·)是一个前馈网络,有两个隐藏层,在输出层之后有一个sigmoid激活。训练目标是最小化二元交叉熵损失:

数据集

  • LCQMC是一个大规模开放域问句匹配语料库。该系统由260068个中文句子对组成,其中训练样本238766个,验证样本8802个,测试样本12500个。每一对都有一个二值标签,表示两个句子是否具有相同的含义或共享相同的意图。正样本比负样本多30%。
  • BQ是一个面向特定领域的大规模银行问句匹配语料库。该系统由12万对汉语句子对组成,包括100000个训练样本、10000个验证样本和10000个测试样本。每一对还与一个二进制标签相关联,该标签表示两个句子是否具有相同的含义。正样本和负样本的数量相同。

结论

本文提出了一种新的linguistic knowledge enhanced graph transformer,用于中文短文本匹配。该模型以两个词格图作为输入,融合了HowNet中的语义信息,以缓解词的歧义性。所提方法在两个中文基准数据集上进行了评估,获得了最好的性能。消融研究还表明,语义信息和多粒度信息对文本匹配建模都很重要。

论文笔记:BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision

前言

论文:https://arxiv.org/pdf/2006.15509.pdf

代码:https://github.com/cliang1453/BOND

摘要

论文研究了远程监督下的开放域命名实体识别(NER)问题。远程监督虽然不需要大量的人工标注,但通过外部知识库产生高度不完整和噪声的远程标签。为应对这一挑战,论文提出一种新的计算框架——BOND,利用预训练语言模型(如BERT和RoBERTa)的力量来提高NER模型的预测性能。具体而言,提出了一种两阶段的训练算法:第一阶段,使用远程标签使预训练语言模型适应NER任务,可以显著提高召回率和准确率;在第二阶段,删除了远程标签,并提出了一种自我训练的方法,以进一步提高模型的性能。在5个基准数据集上的彻底实验表明,BOND比现有的远程监督NER方法具有优越性。

挑战

  • 第一个挑战是不完全标注,这是由现有知识库的覆盖率有限造成的。这个问题导致许多实体不匹配,并产生许多假阳性标签,这可能会显著损害后续的NER模型训练。
  • 第二个挑战是噪声标注。由于标注的模糊性,标注往往是有噪声的——同一个实体可以映射到知识库中的多种实体类型。例如,实体提到“利物浦”可以映射到知识库中的“利物浦城市”(类型:LOC)和“利物浦足球俱乐部”(类型:ORG)。现有方法采用基于类型流行度的标签归纳方法,可能会导致对流行类型的匹配偏差。因此,它会导致许多假阳性样本,并损害NER模型的性能。

通常在标签精度和覆盖率之间存在权衡:生成高质量的标签需要设置严格的匹配规则,这可能不会对所有标签都很好地泛化,从而降低覆盖率并引入假阴性标签。另一方面,随着标注覆盖率的提高,由于标注歧义性,标注错误的数量也在不断增加。综上所述,生成对目标语料库具有高覆盖率的高质量标签仍然是非常具有挑战性的。

继续阅读论文笔记:BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision

论文笔记:Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents

前言

论文:https://arxiv.org/pdf/2203.02898.pdf

代码:https://github.com/rowitzou/dc-match

摘要

文本语义匹配是一项基础任务,已被广泛应用于社区问答、信息检索和推荐等各种场景。大多数最先进的匹配模型,例如BERT,通过统一处理每个单词直接执行文本比较。但是,查询句通常包含要求不同级别匹配粒度的内容。具体来说,关键词代表事实信息,如行动、实体和事件,应该严格匹配,而意图传达抽象的概念和想法,可以转述为各种表达。在论文中,提出了一种简单有效的分而治之的文本语义匹配训练策略,将关键词与意图分离开来。该方法可以很容易地与预先训练的语言模型(PLM)相结合,而不影响它们的推理效率,在三个基准测试中,针对广泛的PLM实现稳定的性能改进。

简介

大多数现有的PLM旨在为各种下游任务建立基础,并专注于寻找一种编码文本序列的通用方法。在应用于文本语义匹配任务时,通常添加一个简单的分类目标进行微调,通过统一处理每个词直接进行文本比较。然而,每个句子通常可以被分解为具有不同匹配粒度的内容。例句对可以在图1中找到。主要内容是指反映实体或行为的事实信息的关键词,需要严格匹配。其他内容构成抽象的意图,一般可以用不同的表达方式来表达相同的概念或想法。

针对句子内容具有不同层次匹配粒度的情况,提出了一种简单而有效的分而治之的文本语义匹配训练机制DC-Match。具体地,我们将匹配问题分解为两个子问题:关键词匹配和意图匹配。给定一对输入文本序列,该模型通过利用远程监督的方法学习将关键词从意图中分离出来。

除了具有全局感受野的标准序列匹配外,进一步将关键词和意图分别进行匹配,以学习不同粒度级别下的内容匹配方式。最后,我们设计了一个特殊的训练目标,结合子问题的解,最小化全局匹配分布(原始问题)和关键词意图联合匹配分布(子问题)之间的KL散度。在推理时,我们期望全局匹配模型自动区分关键词和意图,然后根据不同匹配层次中分解的内容进行最终预测。

贡献

  1. 提出了一种新的文本匹配训练机制,基于不同层次的匹配粒度,以分而治之的方式将关键词从意图中分离出来。
  2. 所提方法简单有效,可以很容易地与PLM加上少量辅助训练参数相结合,而不改变其原始推理效率。
  3. 在两种语言的三个基准上的实验结果表明了所提出方法在不同方面的有效性。
继续阅读论文笔记:Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents

论文笔记:PromptKG: A Prompt Learning Framework for Knowledge Graph Representation Learning and Application

前言

论文:https://arxiv.org/pdf/2210.00305v1.pdf

代码:https://github.com/zjunlp/PromptKG

概述

知识图谱(KGs)通常有两个特征:异构的图结构和文本丰富的实体/关系信息。知识图谱表示学习旨在将关系和实体映射到连续的向量空间中,从而提高知识推理能力,并可应用于问答系统、推荐系统等下游任务。知识图谱表示模型需要考虑图结构和文本语义,但目前没有一个全面的开源框架主要针对知识图谱的信息性文本描述。论文提出了一个用于知识图谱表示学习和应用的开源提示学习框架PromptKG,它装备了前沿的基于文本的方法,集成了一个新的即时学习模型,并支持各种任务(如知识图补全、知识回答、推荐和知识探究)。

一些显著的开源和长期维护的知识体系表示工具包已经开发出来,如OpenKE, LibKGE, PyKEEN, CogKGE。然而,在不使用任何辅助信息的情况下,这些基于嵌入的方法在浅层网络架构的表达能力方面受到限制。

相比之下,基于文本的方法结合可用文本进行知识表示学习。随着提示学习(prompt learning)的快速发展,大量基于文本的模型被提出,这些模型可以通过预训练语言模型获得良好的性能。

阅读更多:论文笔记:PromptKG: A Prompt Learning Framework for Knowledge Graph Representation Learning and Application

基于文本的知识图谱表示

基于判别方法(Discrimination-based methods)

基于判别方法有两种模型:

一种(如KG- bert 和PKGC)利用单个编码器对带有文本描述的知识图谱三元组进行编码;

另一种(如StAR和SimKGC)利用孪生编码器(双塔模型)和预训练语言模型分别对实体和关系进行编码。

基于生成方法(Generation-based methods)

给定一个缺失尾实体的三元组(h, r, ?),给模型输入<?h, ?r>,输出?t。在训练过程中,生成模型最大化条件概率:

为了保证知识图谱中解码序列模式和tokens的一致性,GenKGC提出了一个实体感知的分层解码器来约束??。此外,受提示学习的启发,GenKGC采用与样例相同关系的三元组隐式编码结构化知识。此外,KGT5提出用文本描述对知识图谱表示进行预训练。

基于提示学习的知识表示学习

普通的预训练语言模型中有两个模块:一个用于将token id嵌入到语义空间的词嵌入层(a word embedding layer),另一个用于生成上下文感知嵌入的编码器(encoder)。该方法与普通的判别式方法共享相同的架构。论文采用掩码语言模型,在词嵌入层将实体和关系视为特殊标记。如图所示,该模型利用头部实体和关系及其描述的序列预测出正确的尾部实体。对于实体/关系嵌入,冻结编码器层(encoder),只微调实体嵌入层(entity embedding),以优化损失函数:

其中Θ表示模型的参数,?? 和 ?? 是实体?的描述和嵌入。

基于提示学的的知识图谱表示学习方法

PromptKG整体结构

PromptKG的设计原则

1)统一的知识图谱编码器:PromptKG利用统一的编码器封装图结构和文本语义;

2)模型枢纽:PromptKG集成了许多前沿的基于文本的KG表示模型;

3)灵活的下游任务:PromptKG将KG表示学习和下游任务进行了解耦

统一的知识图谱编码(Unified KG Encode)

一个统一的知识图谱编码器表示图结构和文本语义,支持不同类型的基于文本的知识图谱表示方法。

对于基于判别的方法,输入是建立在纯文本描述上的:

对于基于生成的模型,利用 ? 和 ?? 中的来优化带有标签 ?? 的模型。当预测头实体时,在输入序列中添加一个特殊的token( [reverse])以进行反向推理。用特殊的tokens表示知识图谱中的实体和关系,并得到如下输入:

其中,[Entity h]表示头实体的特殊token。为编码图结构,对1跳邻居实体进行采样,并将它们连接起来作为隐式结构信息的输入。

通过统一的知识图谱编码器,PromptKG可以编码异构的图结构和丰富的文本语义信息。

模型中心(Model Hub)

PromptKG由一个模型中心组成,支持许多基于文本的知识图谱表示模型。例如,KG-BERT使用BERT对三元组及其描述进行评分。但KG-BERT具有较高的时间复杂度,StAR和SimKGC都引入了一种基于塔的方法( a tower-based method)来预计算实体嵌入并高效地检索top-?实体。此外,GenKGC和KGT5将知识图谱补全视为序列到序列(seq2seq)的生成方法。此外,?NN-KGE是一种通过k近邻线性插值其实体分布的知识图谱表示模型。

模型支持的下游任务

应用到下游任务(Applying to Downstream Task)

以基于提示学的知识图谱表示学习为例,如下图所示:

  • 对于知识图谱补全,向模型输入头实体和关系的文本信息⟨?,??⟩,然后通过掩码token预测获得目标尾实体。
  • 对于问答,向模型输入用自然语言编写的问题,并将其与[MASK] token连接起来,以获得目标答案(实体)的特殊token。
  • 在推荐方面,将用户的交互历史作为实体嵌入的顺序输入,然后利用掩码token预测来获得推荐项目。
  • 对于知识探测任务,采用实体嵌入作为额外的知识,以帮助模型更好地通过句子进行推理,并预掩码位置的token,遵循PELT。
知识图谱表示学习应用于不同的下游任务

Entity_t指不同任务的目标尾实体、答案实体、推荐项目和目标尾实体,它遵循预训练(获得嵌入)和微调范式(特定任务调优)。

实验结果

1)基于文本信息的知识图谱补全(链接预测)是知识图谱表示的直接下游任务;
2)问答是一种直观的知识密集型任务;
3)推荐涉及与真实世界知识图谱中的实体对齐,因此可以从知识图谱表示中受益;
4)知识探究(LAMA)利用完形问句分析语言模型中包含的事实知识和常识知识。

知识补全(Knowledge Graph Completion)

针对知识图谱补全任务,论文在数据集WN18RRFB15k-237上进行了链接预测实验,并在PromptKG上使用hits1和MRR指标对模型进行了评估。从表中,基于判别的方法SimKGC比其他基线模型取得了更高的性能。KGT5和GenKGC等基于生成的模型也产生了可比较的结果,并显示了知识图谱表示的潜在能力。?NN-KGE可以从知识存储中通过计算最近邻居实体嵌入空间的距离和两步训练策略的来获得最佳hits1分数。

知识问答(Question Answering)

将PromptKG应用于问答系统,并在MetaQA数据集上进行实验。由于计算资源的限制,论文只评估了1跳推断性能。从表中可以看出,PromptKG中的KGT5具有最佳性能。

知识推荐(Recommendation)

对于推荐任务,在一个完善的版本ML-20m上进行了实验。利用ML-20m与KB4Rec提供的Freebase的链接,获取ML-20m中电影的文本描述。在这些描述上预训练电影嵌入后,按照BERT4Rec的设置在顺序推荐任务上进行了实验。与BERT4Rec相比,PromptKG被证实是有效的推荐。

知识探索(Knowledge Probing)

知识探索检查语言模型(BERT、RoBERTa等)召回事实的能力。使用预训练BERT (BERT -base-uncase)和RoBERTa (RoBERTa -base)模型在LAMA上进行实验。为证明由知识图谱增强的实体嵌入有助于语言模型从预训练中获取更多事实知识,训练了一个遵循PELT的可插拔实体嵌入模块。
如表所示,当使用实体嵌入模块时,性能有所提高。由于Squad中没有标注的主题实体,Concept Net中也没有对应主题实体的URI进行实体对齐,因此只对LAMA中的剩余数据进行实体嵌入。

结论

论文提出PromptKG,一种知识图谱表示学习和应用的提示学习框架。PromptKG建立了一个统一工具包,该工具包具有定义明确的模块和易于使用的接口,以支持在知识图谱上使用PLMs的研究。PromptKG为研究人员和开发人员提供有效和高效的训练代码,并支持下游任务。

论文笔记:Semantics Driven Embedding Learning for Effective Entity Alignment

论文:https://github.com/zhongziyue/SDEA/tree/main/paper

代码:https://github.com/zhongziyue/SDEA

SDEA一种语义驱动的实体嵌入方法,用于实体对齐。SDEA由属性嵌入和关系嵌入两个模块组成。属性嵌入通过预训练的基于transformer的语言模型从属性值中捕获语义信息。关系嵌入使用带有注意力机制的GRU模型选择性地聚合邻居节点的语义信息。属性嵌入和关系嵌入都以语义为驱动,在实体之间建立桥梁。

为了更好地捕捉实体内在的语义(主要体现在长文本属性值中),并有效识别邻居实体在对齐过程中的贡献,提出了一种语义驱动的实体嵌入方法SDEA。该文采用两个嵌入模块,即属性嵌入和关系嵌入。在属性嵌入模块中,使用基于transformer的预训练语言模型来获得每个实体的初始嵌入。最重要的是,该模块捕获了细粒度语义和实体的直接关联。进一步,关系嵌入模块通过注意力机制从属性嵌入的细粒度语义中学习邻近实体的贡献,并选择性地聚合来自邻近实体的信息。此外,从属性嵌入(保留实体的语义)和关系嵌入(聚合邻居实体的语义)进行联合表示学习,以发现实体之间的间接关联。

SDEA框架

属性嵌入模块(Attribute Embedding Module)

属性嵌入模块旨在从实体的属性值中捕获实体之间的语义关联。属性值不仅包括短文本和数字,还包括长句子。从属性值中捕获语义信息一直是一个挑战。为了解决这个问题,使用Transformer,该模型在捕获文本语义信息方面达到了最先进的性能,以处理文本中的异构性。此外,为了处理不同KG模式的异构性,通过将实体的所有属性值组合为一个整体来捕获细粒度语义,然后捕获两个实体之间的语义关联。将属性嵌入形式化为BERT的下游任务,即对预训练的BERT进行微调,将实体ei的属性值编码为属性嵌入Ha(ei)在以下两个阶段。

1)数据预处理:此阶段旨在将实体ei的属性值转换为序列,即一系列tokens,然后可以将其输入到BERT模型中。算法1描述了该步骤的总体过程。

例如,下图说明了算法1中的过程。

2)属性编码:此阶段将前一步生成的序列作为输入,目的是通过BERT模型将序列转换为嵌入。使用预训练的BERT模型和MLP (Multi-Layer Perceptron)层,通过对实体ei的属性序列S(ei)进行编码,得到属性嵌入向量Ha(ei)。

关系嵌入模块(Relation Embedding Module)

在关系嵌入模块中,使用基于GRU的注意机制来建模邻居的贡献,并选择性地聚合这些信息。直观地说,给定一个实体ei,它的邻居ej的贡献将取决于ei的其他邻居。替代方法包括平均邻居的嵌入、池化和直接使用注意机制。相比之下,Bidirectional GRU (BiGRU)模型能够捕捉ei不同邻居之间的相关性,从而可以根据上下文信息(周围邻居)对不同实体的同一邻居的不同贡献进行建模。

用BiGRU捕获邻居间的相关性,直观地,将实体ei的所有邻居作为BiGRU模型的输入序列。注意机制使模型能够利用每个邻居的重要性,从邻居中提取最相关的信息。

联合实体表示(Joint Entity Representation)

给定一个实体ei,属性嵌入模块和关系嵌入模块分别计算其属性嵌入Ha(ei)和关系嵌入Hr(ei),分别从属性和邻居中获取信息。为了联合建模来自属性和邻居的信息,计算了一个联合表示Hm(ei),通过一个MLP层将Ha(ei)和Hr(ei)结合在一起。

因此,三个嵌入Ha(ei)、Hr(ei)和Hm(ei),分别捕获属性信息、邻居信息以及联合属性和邻居信息。最后的实体嵌入内容(ei)是这些嵌入的连接,它捕获信息的所有三个方面。

论文笔记:SelfKG: Self-Supervised Entity Alignment in Knowledge Graphs

前言

论文:https://arxiv.org/pdf/2203.01044.pdf

代码:https://github.com/THUDM/SelfKG

摘要

实体对齐是构建网络规模知识图谱的一个基本问题,旨在识别不同知识图谱中的等价实体。在其发展过程中,标签监督被认为是准确对齐的必要条件。受自监督学习最近进展的启发,探讨了在实体对齐中可以在多大程度上摆脱监督。通常,标签信息(正实体对)用于监督将每个正实体对中的对齐实体拉得更近的过程。然而,论文的理论分析表明,在实际实体对齐的学习中,将未标记的负对推远比将标记的正对拉近受益更多。利用这一发现,为实体对齐制定了自监督学习目标。论文提出SelfKG的有效策略来优化这一目标,以对齐没有标签监督的实体。在基准数据集上的广泛实验表明,无监督的SelfKG可以与最先进的有监督基线相匹配或取得相当的结果。SelfKG的性能表明,自监督学习为知识图谱中的实体对齐提供了巨大的潜力。

挑战

基于表示学习的对齐方法以其优越的灵活性和准确性成为实体对齐的主流解决方案。然而,它们的成功在很大程度上依赖于人工标注提供的监督信息,而对于网络规模的知识图谱来说,这可能是有偏差的,而且获取起来成本非常高。鉴于这一基本挑战,本文旨在探索在没有标签监督的情况下,跨知识图谱对齐实体的潜力。

继续阅读论文笔记:SelfKG: Self-Supervised Entity Alignment in Knowledge Graphs

论文笔记:Supporting Clustering with Contrastive Learning

论文:https://arxiv.org/pdf/2103.12953.pdf

代码:https://github.com/amazon-science/sccl

概述

无监督聚类的目的是根据在表示空间中测量的一定距离发现数据的语义类别。然而,在学习过程的开始阶段,不同的类别往往在表示空间中相互重叠,这对基于距离的聚类在实现不同类别之间的良好分离提出了重大挑战。为此,论文提出了用对比学习支持聚类(SCCL)——一个利用对比学习促进更好分离的新框架。论文实验证明SCCL在利用自底向上实例识别和自顶向下聚类的优势方面的有效性,在使用真实聚类标签进行评估时,可以获得更好的簇内和簇间距离。

即使使用深度神经网络,在聚类开始之前,数据在不同类别之间仍然存在显著重叠。因此,通过优化各种基于距离或相似度的聚类目标学习到的聚类纯度较低。

实例对比学习(Instance-CL)通常在通过数据增强获得的辅助集上进行优化。顾名思义,对比损失用于将原始数据集中同一实例的增强样本拉到一起,而将不同实例的增强样本推开。Instance-CL将不同的实例分散开来,同时在某种程度上隐式地将相似的实例聚集在一起。通过将重叠的类别分散开来,可以利用这种有益的属性来支持聚类。然后进行聚类,从而更好地分离不同的簇,同时通过明确地将该簇中的样本集中在一起,使每个簇更紧密。如图所示:

继续阅读论文笔记:Supporting Clustering with Contrastive Learning