Web日志挖掘中的数据预处理技术

doi:10.3969/j.issn.1000-3428.2009.22.015

计算机工程 ›› 2009, Vol. 35 ›› Issue (22): 44-46. doi: 10.3969/j.issn.1000-3428.2009.22.015

Web日志挖掘中的数据预处理技术

李燕1,2，冯博琴1，鲁晓锋2

(1. 西安交通大学电子与信息工程学院，西安 710049；2. 西安理工大学计算机科学与工程学院，西安 710048)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-11-20 发布日期:2009-11-20

Data Preprocessing Technique in Web Log Mining

LI Yan1,2, FENG Bo-qin1, LU Xiao-feng2

(1. School of Electronics and Information Engineering, Xi’an Jiaotong University, Xi’an 710049; 2. School of Computer Science and Engineering, Xi’an University of Technology, Xi’an 710048)

Received:1900-01-01 Revised:1900-01-01 Online:2009-11-20 Published:2009-11-20

摘要/Abstract

摘要：

数据预处理是Web日志挖掘中的重要步骤，一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响，采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明，在Web访问日志中的记录引用信息较完整的情况下，该方法可以高效地获得用户的访问路径。

关键词: Web日志挖掘, 数据预处理, 用户会话识别, 路径补充

Abstract: Data preprocessing is the important step in Web log mining. It consists of four sub-steps, i.e. data cleaning, user identification, session identification and path completion. The referer-based method is adopted for user session identification and path completion, in order to avoid the problems introduced by using proxy servers, firewall, local caching, and so on. Experimental results reveal that the technique can obtain the user access path efficiently if accurate referer information is available in Web access log.

Key words: Web log mining, data preprocessing, user-session identification, path completion

中图分类号:

TP391

李燕;冯博琴;鲁晓锋. Web日志挖掘中的数据预处理技术[J]. 计算机工程, 2009, 35(22): 44-46.

LI Yan; FENG Bo-qin; LU Xiao-feng. Data Preprocessing Technique in Web Log Mining[J]. Computer Engineering, 2009, 35(22): 44-46.

https://www.ecice06.com/CN/Y2009/V35/I22/44

[1]	周诗源, 王英林. 基于布谷鸟搜索优化算法的多文档摘要方法[J]. 计算机工程, 2020, 46(7): 58-64,71.
[2]	陈东,邵增珍,魏争争,刘衍民. 基于中国观鸟数据的移动对象周期模式发现[J]. 计算机工程, 2017, 43(4): 1-7.
[3]	徐洪峰, 龙军, 张昊. 基于数据预处理的专家反评估方法[J]. 计算机工程, 2012, 38(06): 75-77.
[4]	程苗, 陈华平. 基于Hadoop的Web日志挖掘[J]. 计算机工程, 2011, 37(11): 37-39.
[5]	吴金桥, 曹奇英, 何夏燕, 庄怡雯. 基于多重评价因素的Web用户聚类方法[J]. 计算机工程, 2011, 37(10): 44-46.
[6]	李雅洁;王景成;赵平伟. 聚类算法在供水管网节点选择中的应用[J]. 计算机工程, 2010, 36(8): 245-246.
[7]	方元康;胡学钢;夏启寿. Web日志预处理中优化的会话识别方法[J]. 计算机工程, 2009, 35(7): 49-51.
[8]	刘敏娴;夏阳. 基于Web日志的实时推荐系统[J]. 计算机工程, 2009, 35(23): 47-49.
[9]	方元康;胡学钢;夏启寿;朱勇. 改进的Web日志数据预处理技术[J]. 计算机工程, 2009, 35(10): 73-74.
[10]	郭维. Web日志挖掘中GITC算法的改进[J]. 计算机工程, 2008, 34(4): 60-62.
[11]	胡建军;. 中药特性信息数据挖掘系统中的预处理设计[J]. 计算机工程, 2008, 34(21): 284-封三.
[12]	陈子军;王鑫昱;李伟. 一种Web日志会话识别的优化方法[J]. 计算机工程, 2007, 33(01): 95-97.
[13]	金　玮;张克君;曲文龙;杨炳儒. 分布式Web用户兴趣迁移模式挖掘研究[J]. 计算机工程, 2006, 32(24): 44-47.
[14]	朱金伟;鞠时光;辛　燕. 基于数据挖掘的中医药数据预处理方法[J]. 计算机工程, 2006, 32(15): 280-282,.

选择文件类型/文献管理软件名称

选择包含的内容

Web日志挖掘中的数据预处理技术

Data Preprocessing Technique in Web Log Mining

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

Web日志挖掘中的数据预处理技术

Data Preprocessing Technique in Web Log Mining

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics

本文评价