基于XML的Web数据半自动采集

doi:10.3969/j.issn.1000-3428.2009.21.017

计算机工程 ›› 2009, Vol. 35 ›› Issue (21): 51-53. doi: 10.3969/j.issn.1000-3428.2009.21.017

基于XML的Web数据半自动采集

蒋宏潮，王大亮，班晓娟，阮进喜

(北京科技大学信息工程学院，北京 100083)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-11-05 发布日期:2009-11-05

Web Data Sime-automatic Extraction Based on XML

JIANG Hong-chao, WANG Da-liang, BAN Xiao-juan, RUAN Jin-xi

(School of Information Engineering, University of Science and Technology Beijing, Beijing 100083)

Received:1900-01-01 Revised:1900-01-01 Online:2009-11-05 Published:2009-11-05

摘要/Abstract

摘要： 如何在信息量巨大的互联网上准确获取并长期跟踪用户关注的内容，是数据采集和挖掘的重要方面。探讨Web数据采集理论及其应用技术，给出一个半自动采集模型，设计基于旅游业数据的采集系统，验证数据半自动采集的可行性。

关键词: 数据采集, 信息采集, 半结构化数据

Abstract: It is an important aspect of data extraction and mining that how to exactly gain and chronically trace the content regarded by users on Internet with huge information. This paper discusses Web data extraction theories and its application technologies, gives a sime-automatic extraction model, and designs a extraction system based on tourism industry data to prove the feasibility data sime-automatic extraction.

Key words: data extraction, information extraction, semi-structured data

中图分类号:

TP311.12

蒋宏潮;王大亮;班晓娟;阮进喜. 基于XML的Web数据半自动采集[J]. 计算机工程, 2009, 35(21): 51-53.

JIANG Hong-chao; WANG Da-liang; BAN Xiao-juan; RUAN Jin-xi. Web Data Sime-automatic Extraction Based on XML[J]. Computer Engineering, 2009, 35(21): 51-53.

https://www.ecice06.com/CN/Y2009/V35/I21/51

[1]	田海龙, 贾向东, 张兴元, 常恒. 无人机辅助无线传感器网络数据采集的信息年龄-能量权衡方案[J]. 计算机工程, 2026, 52(4): 358-365.
[2]	张亚, 王超, 胡闯, 王军, 江娣, 刘彦. 冲击波超压测试多设备接入上位机软件设计及应用[J]. 计算机工程, 2024, 50(5): 272-278.
[3]	马超, 宋琛. 计及电力数据安全的智能合约上链方法及防篡改技术研究[J]. 计算机工程, 2024, 50(10): 240-254.
[4]	梁嘉诚, 余江, 王洪波, 刘渊, 王晓锋. 基于RDMA的高性能单向数据采集技术研究[J]. 计算机工程, 2023, 49(10): 31-40.
[5]	蒋宝庆, 陈宏滨. 基于Q学习的无人机辅助WSN数据采集轨迹规划[J]. 计算机工程, 2021, 47(4): 127-134,165.
[6]	陈俞娴, 桂良启, 任利明, 周自成, 占美娟, 杨杰波, 郎量, 陈柯, 田加胜, 郭伟. 基于ARM与FPGA的气象微波辐射计测控系统设计[J]. 计算机工程, 2019, 45(8): 86-91.
[7]	赵涛,郭猛,顾亚浏,章阳. 基于FPGA的多通道数据采集控制器设计与实现[J]. 计算机工程, 2017, 43(6): 241-246.
[8]	冯冬青,朱行武. 6LoWPAN智慧城市数据采集系统的设计与实现[J]. 计算机工程, 2017, 43(11): 286-291.
[9]	王志繁,叶庆卫,周宇,王晓东. 基于排队论的低功耗无线传感技术及其应用[J]. 计算机工程, 2016, 42(8): 39-45.
[10]	刘利方,罗亚辉,康江. 应用于AMR的Flash文件系统设计与实现[J]. 计算机工程, 2016, 42(2): 66-69,76.
[11]	康积华,张奇. 基于图模型的通用半结构化数据检索[J]. 计算机工程, 2015, 41(8): 162-167.
[12]	李晓华,王玉洁,杨丽,聂娟,廉世彬,袁雷. 一种基于无线传感器网络的山地果园数据采集系统[J]. 计算机工程, 2015, 41(8): 238-243,251.
[13]	高梦超,胡庆宝,程耀东,周旭,李海波,杜然. 基于众包的社交网络数据采集模型设计与实现[J]. 计算机工程, 2015, 41(4): 36-40.
[14]	朱贺军,祝烈煌. Twitter加密网络行为自动识别方法[J]. 计算机工程, 2015, 41(12): 166-170.
[15]	赵敏华，李莉，呼娜. 基于无线传感器网络的水质监测系统设计[J]. 计算机工程, 2014, 40(2): 92-96.

选择文件类型/文献管理软件名称

选择包含的内容

基于XML的Web数据半自动采集

Web Data Sime-automatic Extraction Based on XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于XML的Web数据半自动采集

Web Data Sime-automatic Extraction Based on XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价