基于XML的Web数据挖掘关键技术的研究

doi:10.3969/j.issn.1000-3428.2006.20.016

计算机工程 ›› 2006, Vol. 32 ›› Issue (20): 43-44,7. doi: 10.3969/j.issn.1000-3428.2006.20.016

基于XML的Web数据挖掘关键技术的研究

崔建群1,2，何炎祥2，郑世珏1，吴黎兵2

(1. 华中师范大学网络与通信研究所，武汉430079；2. 武汉大学计算机学院，武汉430072)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2006-10-20 发布日期:2006-10-20

Research on Key Technologies of Web Mining Based on XML

CUI Jianqun1,2, HE Yanxiang2, ZHENG Shijue1, WU Libing2

(1. Institute of Network & Communication Technology, Huazhong Normal University, Wuhan 430079; 2. School of Computer, Wuhan University, Wuhan 430072)

Received:1900-01-01 Revised:1900-01-01 Online:2006-10-20 Published:2006-10-20

摘要/Abstract

摘要： 由于存在着大量的在线信息，WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术，提出一种基于XML的Web数据挖掘模型，阐述将半结构化HTML文档转换成良构的XML文档的原因，并给出基于HTML Tide库的转换代码，介绍了利用XML技术从Web网页析取数据的关键技术，包括XHTML、XSLT和XQuery等，对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。

关键词: Web数据挖掘, XML模型, 关键技术

Abstract: With the huge amount of information available online, the World Wide Web is a fertile area for data mining research. This paper addresses the issues related to data extraction from Web pages, and strongly suggests an XML-based approach for solving it. This paper describes the motivations behind converting semi-structured HTML documents into well-formed XML and presents a portion of conversion source codes that is developed based on HTML Tidy library, illustrates how to extract desired information from Web pages with XML technologies, including XHTML, XSLT and XQuery. It also discusses other aspects in the Web mining project such as data check and data integration.

Key words: Web data mining, XML-based model, Key technologies

中图分类号:

TP311

崔建群;何炎祥;郑世珏;吴黎兵. 基于XML的Web数据挖掘关键技术的研究[J]. 计算机工程, 2006, 32(20): 43-44,7.

CUI Jianqun; HE Yanxiang; ZHENG Shijue; WU Libing. Research on Key Technologies of Web Mining Based on XML[J]. Computer Engineering, 2006, 32(20): 43-44,7.

http://www.ecice06.com/CN/Y2006/V32/I20/43

[1]	王正鹏, 谢志鹏, 邱培超. 语义关系相似度计算中的数据标准化方法比较[J]. 计算机工程, 2012, 38(10): 38-40.
[2]	吴小兰. 基于PageRank算法改进的元胞自动机模型[J]. 计算机工程, 2009, 35(9): 217-219.
[3]	李净;袁小华;沈晓晶. Web权威信息自动提取技术的研究及应用[J]. 计算机工程, 2008, 34(13): 54-55,6.
[4]	李永奎;乐云;何清华. 2010年上海世博会运行综合管理系统研究[J]. 计算机工程, 2007, 33(05): 41-43.
[5]	王玉珍. Web使用模式挖掘技术在网站营销中的应用[J]. 计算机工程, 2006, 32(18): 55-57.
[6]	周永华. 移动交通信息服务系统的体系结构与关键技术[J]. 计算机工程, 2006, 32(16): 280-282.

选择文件类型/文献管理软件名称

选择包含的内容

基于XML的Web数据挖掘关键技术的研究

Research on Key Technologies of Web Mining Based on XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 6

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于XML的Web数据挖掘关键技术的研究

Research on Key Technologies of Web Mining Based on XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 6

编辑推荐

Metrics

本文评价