作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• •    

一种面向大规模知识图谱的混合存储方案

  • 发布日期:2025-05-19

Hybrid Large-scale Knowledge Graph Storage Scheme

  • Published:2025-05-19

摘要: 知识图谱作为人工智能领域的关键数据组织形式,在大数据与大模型蓬勃发展的当下,被广泛应用于众多领域。随着知识图谱规模不断扩大,现有存储结构暴露出数据导入速度慢、存储空间占用大等问题。为此,本文提出一种“关系型+键值对”的混合存储方案(KGHS),并设计基于属性频率的实体聚类算法。KGHS借助基于属性频率的实体聚类算法,对不同属性频率的实体簇进行分类。对于高频属性,利用关系型数据库存储,发挥其查询效率高的优势;对于稀有属性,则采用键值对形式存储,以展现键值对存储在处理稀疏数据时的灵活性。这种设计有效规避了关系型存储面对稀疏数据时产生大量空值的弊端,减少了键值对存储中键的重复存储问题,在确保数据灵活性的同时,显著提升了存储效率。在合成数据集和真实数据集上的实验显示,与现有方案相比,KGHS在真实数据集上存储空间节省50%以上,数据导入速度提升一个量级,且查询性能不受显著影响,充分说明KGHS有效地解决了大规模知识图谱的存储难题,为知识图谱在各个领域的广泛应用提供了有力的存储支持,具有重要的理论意义和实际应用价值。

Abstract: 知识图谱作为人工智能领域的关键数据组织形式,在大数据与大模型蓬勃发展的当下,被广泛应用于众多领域。随着知识图谱规模不断扩大,现有存储结构暴露出数据导入速度慢、存储空间占用大等问题。为此,本文提出一种“关系型+键值对”的混合存储方案(KGHS),并设计基于属性频率的实体聚类算法。KGHS借助基于属性频率的实体聚类算法,对不同属性频率的实体簇进行分类。对于高频属性,利用关系型数据库存储,发挥其查询效率高的优势;对于稀有属性,则采用键值对形式存储,以展现键值对存储在处理稀疏数据时的灵活性。这种设计有效规避了关系型存储面对稀疏数据时产生大量空值的弊端,减少了键值对存储中键的重复存储问题,在确保数据灵活性的同时,显著提升了存储效率。在合成数据集和真实数据集上的实验显示,与现有方案相比,KGHS在真实数据集上存储空间节省50%以上,数据导入速度提升一个量级,且查询性能不受显著影响,充分说明KGHS有效地解决了大规模知识图谱的存储难题,为知识图谱在各个领域的广泛应用提供了有力的存储支持,具有重要的理论意义和实际应用价值。