Web网页中动态数据区域的识别与抽取

doi:10.3969/j.issn.1000-3428.2007.11.020

计算机工程 ›› 2007, Vol. 33 ›› Issue (11): 53-55,5.

Web网页中动态数据区域的识别与抽取

黄健斌1,2，姬红兵1，孙鹤立3

(1. 西安电子科技大学电子工程学院，西安 710071；2. 西安电子科技大学计算机学院，西安 710071； 3. 西安交通大学计算机科学与技术系，西安 710049)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-06-05 发布日期:2007-06-05

Dynamical Data Regions Identification and Extraction in Web Pages

HUANG Jianbin1,2, JI Hongbing1, SUN Heli3

(1. School of Electronic Engineering, Xidian University, Xi’an 710071; 2. School of Computer Science, Xidian University, Xi’an 710071; 3. Department of Computer Science & Technology, Xi’an Jiaotong University, Xi’an 710049)

Received:1900-01-01 Revised:1900-01-01 Online:2007-06-05 Published:2007-06-05

摘要/Abstract

摘要： 采用基于HTML标记树的数据块查找方法挖掘Web网页中的数据区域，在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明，该方法能够提高Web网页中动态数据区域识别的召回率和准确率。

关键词: Web数据区域抽取, 动态数据区域识别, 跨网页分析

Abstract: This paper presents an improved approach for finding data blocks in the HTML tag tree to mine the data regions embedded in a Web page. A policy of combining the Web page clustering and cross-page data region analysis is proposed to identify the dynamical Web data regions. Experimental results show the effectiveness of given approach.

Key words: Web data regions extraction, Dynamical data regions identification, Cross-page analysis

中图分类号:

TP311

黄健斌;姬红兵;孙鹤立. Web网页中动态数据区域的识别与抽取[J]. 计算机工程, 2007, 33(11): 53-55,5.

HUANG Jianbin; JI Hongbing; SUN Heli. Dynamical Data Regions Identification and Extraction in Web Pages[J]. Computer Engineering, 2007, 33(11): 53-55,5.

https://www.ecice06.com/CN/Y2007/V33/I11/53

[1]	李亚康, 陈刚. 小角中子散射物理模型自动化筛选[J]. 计算机工程, 2024, 50(6): 56-64.
[2]	李雪, 王雅文, 张前进. 基于信息检索的源代码自动命名[J]. 计算机工程, 2024, 50(6): 304-310.
[3]	江惠珍, 孙艳春, 黄罡. 基于知识图谱的GitHub层次化学习和检索服务[J]. 计算机工程, 2024, 50(5): 16-25.
[4]	旋逸昭, 赵红武, 金瑜. 一种基于双链的区块链共识机制[J]. 计算机工程, 2024, 50(5): 139-148.
[5]	王子珩, 姜忠鼎. 支持多模态交互的桌面增强显示系统[J]. 计算机工程, 2022, 48(7): 177-188.
[6]	张婉莹, 曹晓梅, 陈伟. 白盒模糊测试中环境交互问题的解决方案[J]. 计算机工程, 2020, 46(1): 216-221.
[7]	许福, 郝亮, 陈飞翔, 李冬梅, 崔晓晖. 面向开源代码复用的程序比对分析方法[J]. 计算机工程, 2020, 46(1): 222-228,242.
[8]	张树涛, 谭海波, 陈良锋, 吕波. 一种高效的分布式爬虫系统负载均衡策略[J]. 计算机工程, 2019, 45(11): 62-67.
[9]	杨正龙, 高建华. 基于蜕变测试的面向用户搜索引擎性能分析[J]. 计算机工程, 2019, 45(10): 52-56,63.
[10]	王晨旭, 王晓晨, 余敦辉, 吴珊. 基于动态解耦的软件众包任务分解算法[J]. 计算机工程, 2019, 45(8): 120-124,134.
[11]	王晨旭, 余敦辉, 张万山, 张兴盛. 基于核心度排序的软件众包模块分配算法[J]. 计算机工程, 2019, 45(7): 66-70.
[12]	倪鸿, 刘鑫. 基于神威·太湖之光的非结构网格众核优化技术[J]. 计算机工程, 2019, 45(6): 45-51.
[13]	钱雪忠,姚琳燕. 面向稀疏高维大数据的扩展增量模糊聚类算法[J]. 计算机工程, 2019, 45(6): 75-81.
[14]	王晶,张云泉,梁军. 基于ARM V8平台的向量算法库实现与优化[J]. 计算机工程, 2019, 45(6): 82-88.
[15]	张亚. 舰船一体化网络系统故障注入平台设计[J]. 计算机工程, 2019, 45(6): 273-279.

选择文件类型/文献管理软件名称

选择包含的内容

Web网页中动态数据区域的识别与抽取

Dynamical Data Regions Identification and Extraction in Web Pages

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

Web网页中动态数据区域的识别与抽取

Dynamical Data Regions Identification and Extraction in Web Pages

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价