2. 华东理工大学 信息科学与工程学院, 上海 200237
2. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China
开放科学(资源服务)标志码(OSID):
知识图谱是辅助计算机理解实体背景知识的一种重要方式,目前仍以纯符号化的方式表达。随着知识工程与多模态学习交叉研究的开展[1-3],研究者开始寻求更多的数据模态来丰富和完善知识的表达方式,因此,多模态化成为知识图谱发展的主流趋势之一。当知识图谱中的知识表示包含一种以上模态的数据时,称之为多模态知识图谱。当前,以图文表示为主的多模态知识图谱构建是该领域的研究热点[4-6],其核心任务在于为图谱中的实体、概念、关系等符号知识匹配合适的图像,这也是符号接地的一种方式[7]。
现有的实体配图方法可根据图像的数据来源大致分为百科图谱和搜索引擎两大类。在主流的百科知识图谱中,实体的信息页面都会加入一些图像辅助说明,这为实体配图任务提供了非常充足的图像资源,一些百科图谱的构建组甚至整理开放了针对这些图像的检索工具,如Wikipedia[8]提供了Wikimedia Commons[9],在IMGpedia[10]、VisualSem[11]、Richpedia[12]等常见的多模态知识图谱中都用到了百科图片。目前的搜索引擎大部分都提供了针对图像的搜索功能,利用网页中图像上下文中的文本信息,以及用户的点击行为为当前的检索关键字返回相关图像[13],如ImageGraph[14]、MMKG[15]、TinyImage[16]、NEIL[17]等都选择图像搜索引擎作为候选图像的来源。
虽然多模态知识图谱的构建在实体配图方面已经取得了一定的成果,但现有方法对图像数据源的应用方式简单粗暴,没有准确把握图像数据来源的特点,并且忽略了实体本身的图像表现规律:实体的图像表现在类内有相似性,而在类间有较大差异性,例如,同属于“人物”这一类别的概念通常都会用人物的“肖像”来表达该实体,而其他诸如“电影”“岛屿”等类别则一般不使用“肖像”来表达实体。
本文根据百科图谱和搜索引擎这两类图像源的特点,提出一种基于多模态模式迁移的知识图谱实体配图方法。借助百科图谱准确的人工标注图像及标题信息,为同类实体从中抽取常见的语义模板和视觉模式。将语义模板应用于构建更精准的检索关键词,为同类的非头部实体从图像搜索引擎中获取更准确的候选图像。在此基础上,利用抽取到的视觉模式对获得的候选图像进行筛选,进一步提高配图准确性。
1 相关工作目前,多模态知识图谱实体配图方法可根据采用的图像数据来源分为基于百科图谱的方法和基于图像搜索引擎的方法。基于百科图谱为实体配图的方法有IMGpedia[10]、VisualSem[11]、Richpedia[12]等。其中:IMGpedia是规模最大的,但该方法只是将DBpedia Commons[9]中提供的图像加以整理,没有进行筛选,图像的最终质量不可控;VisualSem使用预训练语言模型CLIP[18]作为图文匹配的工具来检查图像是否匹配,但该方法严重依赖于CLIP训练集中所包含的实体和概念。基于图像搜索引擎为实体配图的方法有Richpedia[12]、ImageGraph[14]、MMKG[15]、TinyImage[16]等。其中:MMKG、ImageGraph、TinyImage只简单粗暴地使用图像搜索引擎获得的排名靠前的图像,同样没有对实体的图像质量进行把控;Richpedia虽然同时使用了百科图像和图像搜索引擎两个数据源,但没有利用百科图像质量较高的优势,而是将两者同等对待。
本文同时考虑百科图谱图像数据和图像搜索引擎两个方面,提出一种基于模式迁移的实体配图方法。与Richpedia不同的是,本文方法筛选了百科图谱中高质量图像及其文字描述作为实体的参考模式,并将该模式用于从图像搜索引擎召回图像,从而充分利用两类图像数据的优势,提高配图准确性。
2 问题定义与方法框架本节形式化地给出问题定义,在此基础上介绍基于模式迁移的实体配图方法框架。
2.1 问题定义多模态知识图谱构建工作的核心在于为其中的实体匹配合适的图像。给定实体
在本文方法框架中包含以下2个阶段:
1)模式抽取:从同一类别头部实体的百科图谱的图文对中,利用同类实体的文本描述中的共现性和图像之间的相似性,抽取该类实体典型图像的语义模板和视觉模式。
2)模式迁移:将得到的语义模板和视觉模式迁移到同类非头部实体的图像获取过程中,其中语义模板用于构建搜索引擎检索关键词,视觉模式用于对检索结果去噪。
3 模式抽取模式抽取方法整体框架如图 1所示,本节分别介绍从百科图谱的图文对中抽取语义模板与视觉模式的具体步骤。
![]() |
Download:
|
图 1 模式抽取方法整体框架 Fig. 1 Overall framework of pattern extraction method |
本文采用Wikipedia描述页中图像的标题作为抽取语义模板的数据来源,采用以词频统计为基础的抽取方法,并使用视觉信息辅助过滤冗余的语义模板。
首先将同类实体的图文对中所有的文本整理成一个大的文本集合,对文本经过词根还原等预处理后,以实体为单位统计其中n-gram(n=1,2,3)的词频,即如果某实体的文本中该短语出现了多次,也只记1次,以避免同一实体中反复出现的词对模板词频统计的干扰。
在最终应用于其他同类实体时,本文只选用词频数量排序靠前的
1)介词冗余。例如针对模板“map”,在抽取到的n-gram中会出现“map of ”这类短语,其出现频率与“map”相近,这一模板与“map”在语义表达上有很大的重复,需要去除,应在抽取时过滤掉不是以名词结尾的短语。
2)包含冗余。以“theatrical release poster”为例,在取1/2/3-gram时,还会取到“theatrical”“release”“poster”“theatrical release”“release poster”这5种额外的情况,且这几个短语的出现频率一定大于或等于“theatrical release poster”,但其中只有“poster”是正确的,其余几项是冗余或者完全错误的。针对这一问题的解决思路是:同词频n-gram中若存在重叠,则优先保留长度较长的n-gram,在此基础上,从高词频向低词频扫描,若发现当前短语包含其余高频短语,说明当前短语冗余,删去该短语。
3.2 视觉模式抽取视觉模式抽取阶段主要包括以下3个步骤:1)获取语义模板对应的图像;2)去除噪声图像;3)过滤语义模板。其中,前2个步骤是对视觉模式的获取及精化,第3步是通过视觉模式进一步对语义模板过滤。
1)获取语义模板对应的图像
在抽取到合适的语义模板后,将从Wikipedia描述页中抽取到的图文对进一步处理成
2)去除噪声图像
通过纯文本比对的方式获得的语义模板,其对应图像中存在噪声,因为语义模板可能出现在图像的标题中但并不是图像所表达的主体。考虑到这种噪声的存在,在本步骤中,借助于整体图像的视觉特征对这些图像进行过滤,这些噪声图像的视觉特征与大部分图像都存在很大的差距,从图像特征的向量空间看,这些图像就是显然的离群点。本文采用预训练图像分类模型VGG16[19]对图像进行编码,得到对应的图像向量,之后用局部离群因子检测方法(Local Outlier Factor,LOF)[20]对这些图像向量进行拟合,计算每张图在向量空间中对应点周围的密度,从而得到其离群因子,最终预测出离群点。
笔者没有采用常规的K-Means、G-Means[21]等聚类算法过滤噪声图像,是考虑到不需要明确提取图像聚类,而只用于过滤边缘图像,且聚类算法会引入额外的超参,而这些超参需要针对实体的不同类别进行设置,影响了方法的泛化能力。
3)过滤语义模板
3.1节中获得的排名靠前的语义模板具备很高的质量,但将所有的模板都用作图像召回是不现实的,需要对这些模板作进一步的筛选,截取前
在此提出语义模板的另一条隐形规则:语义模板之间是视觉独立的,即一个语义模板所要表达的图像与其他模板所表达的图像应该是低重合度的。基于这样一个隐形条件,本步骤借助于离群点检测的方法对语义模板进行筛选。
对每个模板
![]() |
下载CSV 表 1 语义模板示例 Table 1 Examples of semantic patterns |
本节介绍语义模板和视觉模式的迁移方式。其中,语义模板的迁移主要应用于构建搜索引擎检索关键词,视觉模式的迁移主要应用于检索结果的去噪。
4.1 语义模板的迁移本文提出通过在实体名称后增加关键词的方式,具体化检索的方向。若抽取得到实体
![]() |
Download:
|
图 2 不同检索关键词下的图像搜索引擎检索结果 Fig. 2 Retrieval results of image search engine with different keywords |
通过语义模板得到的关键词检索结果会更精确,可以将当前语义模板限定下的实体图像从广泛的网页图像中召回到排名靠前的位置,但图像搜索引擎检索中噪声问题依然存在,除了排序靠前的图像较为可信外,剩下的图像中依然存在错误图像,尤其是针对中长尾实体,图像搜索引擎的准确率是很不可靠的[22]。因此,还需要使用3.2节中获取的视觉模式对搜索引擎得到的图像进行筛选和过滤。
图像筛选的方式同3.2节的噪声过滤类似,即通过LOF算法对每个语义模板对应的图像集进行离群点检测。需要注意的是,进行离群点检测时需要将同类概念的头部实体图像信息作为参考,一起加入到数据集中,LOF算法在头部实体图像集拟合的基础上对同类其他实体的图像进行检测过滤,以防止实体从图像搜索引擎检索得到的图像整体视觉模式偏移,无法通过局部离群因子检测的方法过滤离群点。
5 实验本节介绍实验数据及其统计信息,以及实验所用到的一些模型和超参的设置。此外,还将对最终获得的多模态知识图谱的规模和数据进行统计分析,并通过与现有多模态知识图谱的比较评估和完成下游任务的情况,证明所提方法的有效性。
5.1 数据源与实验设置 5.1.1 数据源本文实验基于百科知识图谱WikiData[23]开展。WikiData是对Wikipedia和Wikimedia Commons结构化处理形成的一个知识库,其包含的实体数量达到9.6×107之多。同时,模式抽取的数据来源是Wikipedia,一个多语言的百科知识图谱,其中用英文表述的文章数量超过6×106。作为WikiData本身构建的数据来源,Wikipedia中每个实体的描述页中的信息比WikiData中的更加完整和全面。此外,用以构建图谱的图像数据来源有百科图像和图像搜索引擎两类,由于数据本身为英文表达,因此采用Google图像搜索引擎。
在实验中,对WikiData中不同概念的实体数量进行统计和排序,在排除“消歧页”等Wikipedia的内置类别和“Taxon” “Surname”等明显的非视觉类别[24]后,排名前25的统计结果如图 3所示,其中,横坐标为类别名称,纵坐标为实体数量的对数值,这么做是因为WikiData数据存在一定的偏向,Human包含的实体数量远大于其他概念,为了更清楚地显示其数值,故使用对数值(底数为e)。每次从这些概念中选取头部的100个实体作为参考实体,对当前概念的图像表达模式进行抽取,包括语义模板和视觉模式。经统计,最终为每个概念抽取了平均约2个语义模板。
![]() |
Download:
|
图 3 概念分布统计 Fig. 3 Statistics of concept distribution |
在视觉模式抽取中,本文采用VGG16作为图像特征的抽取算法,并将VGG16分类模型中分类层之前的最后一个池化层的输出作为特征向量,其为一个512维的向量。
在对模板进行视觉重合度检测时,评估不同离群点比例
![]() |
Download:
|
图 4 |
经统计,本文方法为25类实体,共1.27.8×105个实体收集了1.8×106张图像。抽取到的图像数量按类别分布如图 5(a)所示,可见其中“Island”“City”“Town”这3类所收集到的图像数量最多。实体按图像数量的分布如图 5(b)所示,可见为每个实体最多收集了124张图像,且由于语义模板加入构造搜索引擎检索关键词,每加入一个语义模板就多检索一次,每次检索爬取20张图像,因此实体包含的图像数量以20为间隔出现一个小的峰值。
![]() |
Download:
|
图 5 实体图像数据统计 Fig. 5 Statistics of entity images data |
本文选取4个多模态知识图谱(IMGpedia、VisualSem、Richpedia、MMKG)对图像质量进行比较,每次为一个实体分别从对比的多模态知识图谱和本文所构建的图谱中获取对应图像进行评估,若本文方法的图像质量高于对比图谱则打分“better”,若一致则打分“equal”,否则打分“worse”。打分的标准包括准确性、多样性、数量,且优先级为准确性 > 多样性 > 数量,当准确性一致时才比较多样性,当多样性也一致时才比较图像数量。每次由3位专家进行评分,若3位专家的评分完全不一致,则说明该实体图像准确率受主观因素影响较大,直接舍去这条数据,否则取3个评估结果中一致的打分作为评估的结果。最终从4个基线多模态知识图谱与本文的多模态知识图谱的交集中抽取200个结果进行评估,结果如图 6所示,可以看出,本文方法所获得的图像质量普遍优于4个基线方法。
![]() |
Download:
|
图 6 多模态知识图谱对比 Fig. 6 Comparison of multi-modality knowledge graph |
在评估的过程中,本文方法在同名实体消歧、去除噪声图像等方面的效果也得到了验证。图 7(a)~图 7(c)都是常见的通过直接搜索实体名称容易引入的噪声类型,本文通过引入语义模板的方式规避了这些问题:图 7(a)中“Brazil”指的是一部电影,但由于与国家“Brazil”重名,单在搜索引擎中搜索“Brazil”得到的图像便全是巴西的地图,而本文方法在检索时会在关键词中加入“poster”这个限定词,检索得到的图像就都是正确指向电影的图;图 7(b)中“Moby”是一个人,通过名字在搜索引擎上搜索得到的图像,除了“Moby”本人的照片,还会出现与他人的合照,这也是通过图像搜索引擎搜索人名时经常会遇到的噪声,而本文方法在检索时通过加入“portrait”这个语义模板,将图像搜索引擎的结果正确引向了人物个人的肖像;图 7(c)中“IBM”指的是一个企业的名字,但由于与一款计算机同名,导致其搜索结果中包含很多个人电脑的照片,而本文通过在检索时加入“logo”“headquarters”等关键词,将检索结果引向了正确的图像。图 7(d)是少数MMKG优于本文方法的一个例子,“Walter Lantz”是一位画家,但由于他也是一个人,本文方法在检索时同样加入了“portrait”作为限定,但其画作中也存在肖像,因此导致最终搜索结果偏向了他的画作。
![]() |
Download:
|
图 7 案例分析 Fig. 7 Case analysis |
为进一步检验使用本文方法获取的图像的质量,本文设计一种基于“Prompt”[25]的链接预测方法在数据集FB15k(Freebase[26]的子集)上对收集得到的图像进行评估。任务定义如下:输入三元组
此处借鉴Frozen[27]的思路,将链接预测任务转换成完形填空问题,实现方式如下:针对三元组
![]() |
Download:
|
图 8 基于Prompt的链接预测模型结构 Fig. 8 Structure of link prediction model based on Prompt |
本实验为FB15k中包含数据量最大的15种关系构建了语义填空模板,例如:针对FB15k数据集中的关系“/film/actor/film./film/performance/film”,可构建填空模板“
为了检验实体图像带来的作用,本节还进行了以下消融实验:1)只使用预训练文本编码(Text);2)传入空的图像编码(Zero Embedding);3)替换其他多模态知识图谱的图像。本文对比的多模态知识图谱为Richpedia和MMKG,这是由于现有的多模态知识图谱本身构建依赖的符号知识库不同,所包含的实体也不同,只有包含FB15k中实体的多模态知识图谱才适合用于比较。尽管VisualSem、IMGpedia的一部分实体可以与FB15k中的实体对齐,但数量太少,不足以支撑训练,故不在此进行比较,最终实验结果如表 2所示。
![]() |
下载CSV 表 2 链接预测消融实验结果 Table 2 Ablation experiment results of link prediction |
通过对比使用纯文本预测和加入图像信息进行预测的结果可以发现,图像信息的引入有效增强了模型对实体的预测能力。同时对比加入本文方法所收集的图像和加入其他多模态知识图谱的图像的结果,可以发现,本文方法收集到的图像训练所得的链接预测模型在各个指标上均超过其他多模态知识图谱,证明了本文方法的有效性和优越性。
6 结束语本文提出基于多模态模式迁移的知识图谱实体配图方法,借助同类实体图像之间存在的共性,以语义和图像2个角度,从头部实体的百科图像与标题中抽取相关的语义模板和视觉模式,并迁移应用到非头部实体的图像获取过程中。基于本文方法为25类实体,共1.278×105个实体收集1.8×106张图像。与4个现有多模态知识图谱的对比结果表明,本文方法收集到的图像具有更高的准确性和多样性,在下游任务链接预测中引入本文方法收集的图像,可使模型效果得到显著提升。在目前的多模态知识图谱构建工作中,对图像质量的评估方法仍有很多不足,导致构建所得的知识图谱整体质量得不到有效评估,也就很难应用于下游任务,后续将对此进行相关研究。
[1] |
刘昱然. 多模态领域知识图谱构建方法及应用研究[D]. 银川: 北方民族大学, 2020. LIU Y R. Research on the construction method and application of multi-modality domain knowledge graph[D]. Yingchuan: Northern University for nationalities, 2020. (in Chinese) |
[2] |
何俊, 张彩庆, 李小珍, 等. 面向深度学习的多模态融合技术研究综述[J]. 计算机工程, 2020, 46(5): 1-11. HE J, ZHANG C Q, LI X Z, et al. Survey of research on multimodal fusion technology for deep learning[J]. Computer Engineering, 2020, 46(5): 1-11. (in Chinese) |
[3] |
BALTRUSAITIS T, AHUJA C, MORENCY L P. Multimodal machine learning: a survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423-443. DOI:10.1109/TPAMI.2018.2798607 |
[4] |
卢超. 基于多模态知识图谱的图像描述[D]. 石家庄: 河北科技大学, 2020. LU C. Image description based on multimodal knowledge graph[D]. Shijiazhuang: Hebei University of Science and Technology, 2020. (in Chinese) |
[5] |
MOUSSELLY S H, BOTSCHEN T, GUREVYCH I, et al. A multimodal translation-based approach for knowledge graph representation learning[C]//Proceedings of the 17th Joint Conference on Lexical and Computational Semantics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 225-234.
|
[6] |
ZHU X R, LI Z X, WANG X D, et al. Multi-modal knowledge graph construction and application: a survey[EB/OL]. [2022-01-10]. https://arxiv.org/abs/2202.05786.
|
[7] |
霍书全. 人工智能符号接地问题研究的意义和挑战[J]. 上海师范大学学报(哲学社会科学版), 2019, 48(3): 98-107. HUO S Q. The research significance and challenge of the AI symbol grounding problem[J]. Journal of Shanghai Normal University (Philosophy & Social Sciences Edition), 2019, 48(3): 98-107. (in Chinese) |
[8] |
Wikipedia[M]. [S. l. ]: PediaPress, 2004.
|
[9] |
COMMONS W. Wikimedia[EB/OL]. [2022-01-10]. https://commons.wikimedia.org.
|
[10] |
FERRADA S, BUSTOS B, HOGAN A. IMGpedia: a linked dataset with content-based analysis of Wikimedia images[C]//Proceedings of the 21st International Symposium on Wearable Computers. Berlin, Germany: Springer, 2017: 84-93.
|
[11] |
ALBERTS H, HUANG N Y, DESHPANDE Y, et al. VisualSem: a high-quality knowledge graph for vision and language[C]//Proceedings of the 1st Workshop on Multilingual Representation Learning. Stroudsburg, USA: Association for Computational Linguistics, 2021: 1-15.
|
[12] |
WANG M, WANG H F, QI G L, et al. Richpedia: a large-scale, comprehensive multi-modal knowledge graph[J]. Big Data Research, 2020, 22: 1-10. |
[13] |
GUNJAN V K, KUMARI M, KUMAR A, et al. Search engine optimization with Google[J]. International Journal of Computer Science Issues, 2012, 9(1): 206. |
[14] |
OÑORO-RUBIO D, NIEPERT M, GARCÍA-DURÁN A, et al. Answering visual-relational queries in Web-extracted knowledge graphs[EB/OL]. [2022-01-10]. https://arxiv.org/abs/1709.02314.
|
[15] |
LIU Y, LI H, GARCIA-DURAN A, et al. MMKG: multi-modal knowledge graphs[C]//Proceedings of European Semantic Web Conference. Berlin, Germany: Springer, 2019: 459-474.
|
[16] |
TORRALBA A, FERGUS R, FREEMAN W T. 80 million tiny images: a large data set for nonparametric object and scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(11): 1958-1970. |
[17] |
CHEN X L, SHRIVASTAVA A, GUPTA A. NEIL: extracting visual knowledge from Web data[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2013: 1409-1416.
|
[18] |
RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[EB/OL]. [2022-01-10]. https://arxiv.org/abs/2103.00020.
|
[19] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-01-10]. https://arxiv.org/abs/1409.1556.
|
[20] |
BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: identifying density-based local outliers[C]//Proceedings of 2000 ACM SIGMOD International Conference on Management of Data. New York, USA: ACM Press, 2000: 93-104.
|
[21] |
ZHAO Z H, GUO S Q, XU Q L, et al. G-Means: a clustering algorithm for intrusion detection[M]//KOPPEN M, KASABOV N, COGHILL G. Advances in neuro-information processing. Berlin, Germany: Springer, 2009: 563-570.
|
[22] |
UYAR A, KARAPINAR R. Investigating the precision of Web image search engines for popular and less popular entities[J]. Journal of Information Science, 2017, 43(3): 378-392. |
[23] |
VRANDEČIĆD. Wikidata: a new platform for collaborative data collection[C]//Proceedings of the 21st International Conference on World Wide Web. New York, USA: ACM Press, 2012: 1063-1064.
|
[24] |
JEONG J W, WANG X J, LEE D H. Towards measuring the visualness of a concept[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York, USA: ACM Press, 2012: 2415-2418.
|
[25] |
LIU P F, YUAN W Z, FU J L, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[EB/OL]. [2022-01-10]. https://arxiv.org/abs/2107.13586.
|
[26] |
BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. New York, USA: ACM Press, 2008: 1247-1250.
|
[27] |
TSIMPOUKELLI M, MENICK J, CABI S, et al. Multimodal few-shot learning with Frozen language models[EB/OL]. [2022-01-10]. https://arxiv.org/abs/2106.13884.
|
[28] |
DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. [2022-01-10]. https://arxiv.org/abs/1810.04805.
|