多模态实体链接数据集 MELBench

1. 摘要

多模态实体链接是多模态数据处理的基础任务之一,旨在将多模态数据中的实体链接到知识图谱中,在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而,目前开源和能重现的多模态实体链接数据集还很少,一定程度上制约着相关工作的研究。 东南大学团队发布的多模态实体链接数据集MELBench包含3个任务:Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集,数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域,分别包含25,602、18,880和17,806条多模态实体链接数据,每条数据均为人工标注,包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接(MEL)任务提供基准数据支持。MELBench 的访问地址为 https://github.com/seukgcode/MELBench

2. 多模态实体链接(MEL)

实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。

3. 数据集构建

为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。

4. 数据集详情

基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:

  • Weibo-MEL采用微博作为多模态数据源,并采用CN-DBpedia作为知识图谱。数据集包含25,602个样本,对应31,516个提及-实体对。

  • Wikidata-MEL采用Wikidata和Wikipedia作为多模态数据源,并采用Wikidata作为知识图谱。数据集包含18,880个样本,对应22,534个提及-实体对。

  • Richpedia-MEL采用Richpedia和Wikipedia作为多模态数据源,同样采用Wikidata作为知识图谱。数据集包含17,806个样本,对应20,752个提及-实体对。

此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。

开发团队

数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成,指导老师汪鹏。

数据与资源

其他信息

价值
https://github.com/seukgcode/MELBench
作者 汪鹏 周星辰 邓臻凯 李国正 谢佳锋 吴江恒
维护者 汪鹏 周星辰 邓臻凯 李国正 谢佳锋 吴江恒
版本 1.0
最近更新 八月 13,2021,17:20(Asia/Shanghai)
创建的 八月 13,2021,16:42(Asia/Shanghai)