基于Hadoop平台的相关性权重算法设计与实现

doi:10.19678/j.issn.1000-3428.0049976

计算机工程 ›› 2019, Vol. 45 ›› Issue (3): 26-31. doi: 10.19678/j.issn.1000-3428.0049976

所属专题：云计算与大数据专题；

基于Hadoop平台的相关性权重算法设计与实现

高军,黄献策

上海海事大学信息工程学院,上海 201306

收稿日期:2018-01-04 出版日期:2019-03-15 发布日期:2019-03-15
作者简介:高军(1979—),男,副教授、博士,主研方向为大数据分析、异构计算;黄献策,硕士研究生
基金资助:
国家自然科学基金(41701523);上海海事大学研究生创新基金(YXR2017032)

Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform

GAO Jun,HUANG Xiance

College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China

Received:2018-01-04 Online:2019-03-15 Published:2019-03-15

摘要/Abstract

摘要：

传统TF-IDF算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用MapReduce编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。

关键词: 分布式计算, TF-IDF算法, 日志, 兴趣模型, 信息检索

Abstract:

The traditional TF-IDF algorithm calculates the correlation weights between keywords and documents only by using the perspective of word frequency and reverse document frequency,which ignoes the influence of user interest on weight calculation.In order to meet the purpose of user information retrieval,a correlation weight algorithm based on journal association is proposed.From the perspective of user-oriented comelation,the user interest model is built by analyzing the user's search journal,and combined with the idea of distributed computing,the MapReduce programming framework is used to realize the parallel processing of computing tasks.Experimental results show that it can not only improve the efficiency of the algorithm when dealing with massive data,but also dynamically change the weight of retrieval word according to the user's historical retrieval records,so as to enhance the interaction ability between users and the system.

Key words: distributed computing, TF-IDF algorithm, journal, interest model, information retrieval

中图分类号:

TP391

高军,黄献策. 基于Hadoop平台的相关性权重算法设计与实现[J]. 计算机工程, 2019, 45(3): 26-31.

GAO Jun,HUANG Xiance. Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform[J]. Computer Engineering, 2019, 45(3): 26-31.

http://www.ecice06.com/CN/Y2019/V45/I3/26

参考文献

［1］付志超.基于Map/Reduce的分布式智能搜索引擎框架研究［D］.武汉:武汉理工大学,2008.
［2］邓玉林.基于hadoop大数据框架的个性化推荐系统研究与实现［D］.成都:电子科技大学,2016.
［3］慕慧鸽,张军.国内情报学领域信息检索相关性研究进展分析［J］.图书馆学研究,2016(6):10-14.
［4］SALTON G,YU C T.On the construction of effective vocabularies for information retrieval［C］//Proceedings of ACM SIGPLAN-SIGIR Interface Meeting.New York,USA:ACM Press,1973,9(3):48-60.
［5］SALTON G,FOX E A,WU H.Extended Boolean information retrieval［D］.New York,USA:Cornell University,1982.
［6］李学明,李海瑞,薛亮,等.基于信息增益与信息熵的TFIDF算法［J］.计算机工程,2012,38(8):37-40.
［7］张瑜,张德贤.一种改进的特征权重算法［J］.计算机工程,2011,37(5):210-212.
［8］张瑾.基于改进TF-IDF算法的情报关键词提取方法［J］.情报杂志,2014(4):153-155.
［9］龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法［J］.计算技术与自动化,2007,26(1):81-83.
［10］张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究［J］.计算机工程与应用,2007,43(35):159-161.
［11］贺科达,朱铮涛,程昱.基于改进 TF-IDF 算法的文本分类方法研究［J］.广东工业大学学报,2016,33(5):49-53.
［12］周源,刘怀兰,杜朋朋,等.基于改进TF-IDF特征提取的文本分类模型研究［J］.情报科学,2017(5):111-118.
［13］王锴,施水才,王涛,等.基于MapReduce的术语权重计算方法研究［J］.电信科学,2011,27(11):62-65.
［14］李彬.基于Hadoop框架的TF-IDF算法改进［J］.微型机与应用,2012,31(7):14-16.
［15］姚卫国,张东波.基于Hadoop分布式平台的Web文本关键词提取方案［J］.湘潭大学(自然科学学报),2016,38(2):79-83.
［16］DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters［C］//Proceedings of Conference on Symposium on Opearting Systems Design and Implementation.［S.1.］:USENIX Association,2008:10-10.
［17］GEORGE L.HBase权威指南［M］.代志远,刘佳,蒋杰,译.北京:人民邮电出版社,2013.

[1]	孙嘉, 张建辉, 卜佑军, 陈博, 胡楠, 王方玉. 基于CNN-BiLSTM模型的日志异常检测方法[J]. 计算机工程, 2022, 48(7): 151-158,167.
[2]	李佩, 陈乔松, 陈鹏昌, 邓欣, 王进, 朴昌浩. 基于模态特异及模态共享特征信息的多模态细粒度检索[J]. 计算机工程, 2022, 48(11): 62-68,76.
[3]	吴正江, 姚琪, 冯四风, 顾青. 基于数据库二进制日志的竞赛式仲裁优化方案[J]. 计算机工程, 2021, 47(5): 24-29.
[4]	张基, 谢在鹏, 毛莺池, 徐媛媛, 朱晓瑞, 李博文. MapReduce框架下结合分布式编码计算的容错算法[J]. 计算机工程, 2021, 47(4): 173-179.
[5]	杜诗晴, 王鹏, 汪卫. 一种基于MDL的日志序列模式挖掘算法[J]. 计算机工程, 2021, 47(2): 118-125.
[6]	杨瑞朋, 屈丹, 朱少卫, 钱叶魁, 唐永旺. 基于改进时间卷积网络的日志序列异常检测[J]. 计算机工程, 2020, 46(8): 50-57.
[7]	赵宝琦, 李卫东, 邹佳恒, 林韬, 颜田. 基于MPI的分布式数据处理系统[J]. 计算机工程, 2019, 45(7): 20-25.
[8]	张璐, 朱海婷. 一种高效的分布式水军群组检测算法[J]. 计算机工程, 2019, 45(7): 6-12.
[9]	韩菊茹,纪兆轩,李一鸣,马存庆. 基于区块链的可信日志存储与验证系统[J]. 计算机工程, 2019, 45(5): 13-17.
[10]	任良育,赵成萍,严华. 基于任务复制与冗余消除的多核调度算法[J]. 计算机工程, 2019, 45(5): 59-65.
[11]	张浩盛伦,李翀,柯勇,张士波. 一种分布式用户浏览点击模型算法[J]. 计算机工程, 2019, 45(3): 1-6.
[12]	张倩倩,田学东,杨芳,李新福. 基于数学文本和表达式转换的融合检索模型[J]. 计算机工程, 2019, 45(3): 175-181,187.
[13]	塞麦提·麦麦提敏, 司马义·阿不都热依木. 维吾尔语停用词抽取方法研究[J]. 计算机工程, 2019, 45(10): 288-292,300.
[14]	赵泽昱,陈健,张月琴. 基于情感空间的用户阅读兴趣模型研究[J]. 计算机工程, 2019, 45(1): 308-314.
[15]	李云洋,周川,王琦. 异构分布式计算环境下一种新型表调度算法[J]. 计算机工程, 2018, 44(8): 43-47.

选择文件类型/文献管理软件名称

选择包含的内容

基于Hadoop平台的相关性权重算法设计与实现

Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Hadoop平台的相关性权重算法设计与实现

Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价