论文笔记:HAO Unity: A Graph-based System for Unifying Heterogeneous Data

HAO Unity系统架构

基于图的异构数据集成系统HAO Unity,HAO Unity系统整体框架如下图所示,主要组件包括:物理统一组件、语义统一组件、数据探索组件。物理统一组件负责通过属性图交换不同格式的数据。语义统一组件则从两方面来统一属性图中的异构数据:schema和instance。数据探索组件提供一个查询元数据、实体和关系信息的接口,方面用户了解集成后的数据,并进一步构建下游应用。

物理统一组件

物理统一组件包括两部分:数据接入和数据导出。数据接入负责从不同数据源接收格式各异的数据(各种关系数据库、NoSQL数据库或者半结构化文件),并将这些数据转换至原始属性图。具体来说,采用了一些数据转换规则:(1) 关系表中的每个元组均转换为属性图中的节点;(2) 关系表中的属性转换为属性图中节点的属性;(3) 关系表中的外键转换为属性图中节点间的关系。数据导出是数据接入的逆向过程。

数据导入

多种格式数据分别对应我们的结构化和非结构化数据格式,目前没有考虑半结构化文件。结构化数据知识抽取论文可以解决CSV、Execl、Oracle、MySQL等数据。

数据导出

论文的数据导出是数据导入的逆向过程。

语义统一组件

在HAO Unity中,语义统一主要包括schema integration和entity consolidation。由于完全自动的异构数据处理效果不足够好,因此HAO Unity遵循HAO模型的理论,集成各类智能。

Schema Integration

具有相同含义但来自不同数据源的数据,可以被不同的schema描述,因此需要进行schema对齐来解决语义歧义的问题。该论文通过元数据中心的方式来实现schema对齐。过程主要包括:(1) 计算原始数据的schema与被对齐的元数据中心预定义的schema相似度;(2) 相似度高于阈值则对齐,低于阈值则更新元数据中心;(3) 自动集成后,提供一个接口支持手动纠正结果。经过schema integration后,所有实体均具有统一的schema描述。

对于业务图谱来说,图谱的实体和关系量级相对比较少,schema的也相对比较少,人工对schema进行校对可以更省时,更准确。所以目前对于小规模的图谱先采用人工校验schema对齐方案。

Entity Consolidation

为了提供实例级别的统一数据,需要将属性图中相同语义的实体进行去重,该问题可以被形式化为二分类问题。HAO Unity使用了基于预训练语言模型的SOTA方法,并在其基础上做了两项改进。第一个改进是改变文本的序列化方式;第二个改进是使用了一些剪枝策略来加速匹配的过程。首先,基于字符串相似度过滤一部分待匹配实体对;其次,使用SVM模型进行匹配;最后,将SVM匹配置信度不高的样本交由Ditto进行匹配。

除了自动化的方法外,论文中的系统还提供了一个用户接口来人工纠正实体匹配的结果。

HAO

  • Human intelligence:人类智能是指其人员的领域专业知识,系统使用人类智能来确认和纠正统一结果。
  • Artificial intelligence:人工智能体现在机器人的智能表现上,人工智能帮助自动处理。
  • Organizational intelligence:组织智能涉及到自定义的文化规则和商业精神的商业目标和约束,组织智能预定义元数据,帮助关系抽取。

HAO Unity提供10项具体的功能,包括:数据导入、数据集成、实体消歧、实体分析、关系抽取、隐含关系抽取、数据概览、数据查询、数据导出和系统介绍。

数据探索组件

数据探索组件提供不同粒度的数据检索功能。用户可以直接查询属性图中的所有数据,也可以获取属性图中三种不同粒度的信息。(1) entity-level: 用户可以查询实体和其属性以及一些统计信息;(2) relationship-level: 用户可以查询一跳或者多跳关系;(3) 用户可以查询各类元数据。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注