基于概率潜在语义分析的中文信息检索

doi:10.3969/j.issn.1000-3428.2008.02.066

计算机工程 ›› 2008, Vol. 34 ›› Issue (2): 199-201. doi: 10.3969/j.issn.1000-3428.2008.02.066

基于概率潜在语义分析的中文信息检索

罗景，涂新辉

(武汉科技大学计算机学院，武汉 430065)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-01-20 发布日期:2008-01-20

Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis

LUO Jing, TU Xin-hui

(School of Computer Science, Wuhan University of Science and Technology, Wuhan 430065)

Received:1900-01-01 Revised:1900-01-01 Online:2008-01-20 Published:2008-01-20

摘要/Abstract

摘要： 传统的信息检索模型把词看作孤立的单元，没有考虑自然语言中存在大量的同义词、多义词现象，对召回率和准确率有不利的影响。概率潜在语义模型使用统计的方法建立“文档-潜在语义-词”之间概率分布关系并利用这种关系进行检索。该文将概率潜在语义模型用于中文信息检索，实验结果表明，概率潜在语义模型相对于传统的向量空间模型能够显著地提高检索的平均精度。

关键词: 概率潜在语义分析, 中文信息检索, 索引技术, 关键词抽取

Abstract: In traditional information retrieval models, index word is regarded as independent unit. However, there are many synonyms and polysemy in natural language, and the existence of them deteriorate the recall and precision respectively. Probabilistic latent semantic analysis is a novel approach to automated document indexing which is based on a statistical latent class model for factor analysis of count data. This paper applies the approach to Chinese information retrieval task. Experimental results indicate that the model based on probabilistic latent semantic analysis hss a prominent higher effectiveness than vector space model.

Key words: probabilistic latent semantic analysis, Chinese information retrieval, index strategies, key phrase extraction

中图分类号:

TP18

罗景;涂新辉. 基于概率潜在语义分析的中文信息检索[J]. 计算机工程, 2008, 34(2): 199-201.

LUO Jing; TU Xin-hui. Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis[J]. Computer Engineering, 2008, 34(2): 199-201.

http://www.ecice06.com/CN/Y2008/V34/I2/199

[1]	杨文忠, 丁甜甜, 康鹏, 卜文秀. 基于舆情新闻的中文关键词抽取综述[J]. 计算机工程, 2023, 49(3): 1-17.
[2]	杨延娇, 赵国涛, 袁振强, 韩家臣. 融合语义特征的TextRank关键词抽取方法[J]. 计算机工程, 2021, 47(10): 82-88.
[3]	李俊, 吕学强. 融合BERT语义加权与网络图的关键词抽取方法[J]. 计算机工程, 2020, 46(9): 89-94.
[4]	刘啸剑,谢飞. 结合主题分布与统计特征的关键词抽取方法[J]. 计算机工程, 2017, 43(7): 217-222.
[5]	蔡芳，沈一，南凯. 基于科研在线文档库平台的标签推荐系统[J]. 计算机工程, 2014, 40(5): 295-298.
[6]	李志欣, 施智平, 陈宏朝, 吴璟莉. 基于语义学习的图像多模态检索[J]. 计算机工程, 2013, 39(3): 258-263.
[7]	蒋效宇. 基于关键词抽取的自动文摘算法?[J]. 计算机工程, 2012, 38(3): 183-186.
[8]	汪洋, 帅建梅. 基于语义扩展模型的中文网页关键词抽取[J]. 计算机工程, 2012, 38(22): 163-166.
[9]	张成, 曲明成, 倪宁, 仇光, 卜佳俊. 基于概率潜在语义分析模型的自动答案选择[J]. 计算机工程, 2011, 37(14): 70-72.
[10]	张虹. 基于自动文本分类的关键词抽取算法[J]. 计算机工程, 2009, 35(12): 145-147.
[11]	刘菲;黄萱菁;吴立德. 利用关联规则挖掘文本主题词的方法[J]. 计算机工程, 2008, 34(7): 81-83.

选择文件类型/文献管理软件名称

选择包含的内容

基于概率潜在语义分析的中文信息检索

Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 11

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于概率潜在语义分析的中文信息检索

Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 11

编辑推荐

Metrics

本文评价