一种潜在文档相似模型

doi:10.3969/j.issn.1000-3428.2009.15.011

计算机工程 ›› 2009, Vol. 35 ›› Issue (15): 32-34.

一种潜在文档相似模型

贾西平1，刘海珠2

(1. 广东技术师范学院计算机科学学院，广州 510665；2. 华南师范大学增城学院，广州 511363)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-08-05 发布日期:2009-08-05

Latent Document Similarity Model

JIA Xi-ping1, LIU Hai-zhu2

(1. School of Computer Science, Guangdong Polytechnic Normal University, Guangzhou 510665; 2. Zengcheng College, South China Normal University, Guangzhou 511363)

Received:1900-01-01 Revised:1900-01-01 Online:2009-08-05 Published:2009-08-05

摘要/Abstract

摘要： 提出一种潜在文档相似模型(LDSM)，把每对文档看作一个二分图，把文档的潜在主题看作二分图的顶点，用主题间的加权相似度为相应边赋权值，并用二分图的最佳匹配表示文档的相似度。实验结果表明，LDSM的平均查准率和平均查全率都优于用TextTiling和二分图最佳匹配方法构建的文档相似模型。

关键词: 主题, 文档相似度, 文档检索, 信息检索

Abstract: This paper proposes a Latent Document Similarity Model(LDSM). It denotes each document pair as a bipartite graph, where each node is a latent topic, and each edge is weighted with the similarity between the corresponding topics, and it represents the document similarity as the optimal matching of the bipartite graph. Experimental results show that LDSM outperforms the document similarity model based on TextTiling and the optimal matching of bipartite graph at both average precision and average recall.

Key words: topic, document similarity, document retrieval, information retrieval

中图分类号:

TP311

贾西平;刘海珠. 一种潜在文档相似模型[J]. 计算机工程, 2009, 35(15): 32-34.

JIA Xi-ping; LIU Hai-zhu. Latent Document Similarity Model[J]. Computer Engineering, 2009, 35(15): 32-34.

https://www.ecice06.com/CN/Y2009/V35/I15/32

[1]	尹兆良, 黄于欣, 余正涛, 王冠文, 艾传鲜. 融合罪名分类的涉案新闻主题分析方法[J]. 计算机工程, 2025, 51(4): 208-216.
[2]	陈宇航, 杨勇, 先木斯亚·买买提明, 帕力旦·吐尔逊, 樊小超, 任鸽, 刁宇峰. 基于主题感知和语义增强的作文自动评分方法[J]. 计算机工程, 2024, 50(8): 363-371.
[3]	李雪, 王雅文, 张前进. 基于信息检索的源代码自动命名[J]. 计算机工程, 2024, 50(6): 304-310.
[4]	于明诚, 党亚固, 吴奇林, 吉旭, 毕可鑫. 基于多尺度上下文的英文作文自动评分研究[J]. 计算机工程, 2024, 50(3): 259-266.
[5]	刘金硕, 刘宁. 面向招标文件的半结构化文本自动生成[J]. 计算机工程, 2023, 49(3): 67-72.
[6]	刘子健, 王勇, 刘媛妮, 周由胜. 基于情节记忆的高效短文本流聚类算法[J]. 计算机工程, 2023, 49(10): 145-153.
[7]	高玮军, 刘健, 毛文静. 基于T-HDGN模型的对话摘要生成方法[J]. 计算机工程, 2023, 49(10): 80-88.
[8]	李琴, 李少波, 胡杰. 基于主题情感联合分析的游客画像研究[J]. 计算机工程, 2022, 48(6): 278-287,294.
[9]	张鹏举, 贾永辉, 陈文亮. 基于多特征实体消歧的中文知识图谱问答[J]. 计算机工程, 2022, 48(2): 47-54.
[10]	雷恒林, 古兰拜尔·吐尔洪, 买日旦·吾守尔, 曾琪. 基于Hellinger距离与词向量的终身机器学习主题模型[J]. 计算机工程, 2022, 48(11): 89-95.
[11]	李佩, 陈乔松, 陈鹏昌, 邓欣, 王进, 朴昌浩. 基于模态特异及模态共享特征信息的多模态细粒度检索[J]. 计算机工程, 2022, 48(11): 62-68,76.
[12]	高永兵, 黎预璇, 高军甜, 马占飞. 基于用户意图的微博文本生成技术研究[J]. 计算机工程, 2022, 48(1): 119-126.
[13]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[14]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.
[15]	刘昕, 白婷婷, 张淯舒, 钱茛南, 何旭莉, 席永轲. 基于EA-LDA算法的领域知识图谱潜在关系扩展[J]. 计算机工程, 2021, 47(10): 89-96,102.

选择文件类型/文献管理软件名称

选择包含的内容

一种潜在文档相似模型

Latent Document Similarity Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种潜在文档相似模型

Latent Document Similarity Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价