航班信息抽取规则的自动生成技术

doi:10.3969/j.issn.1000-3428.2011.06.023

计算机工程 ›› 2011, Vol. 37 ›› Issue (6): 65-67.

航班信息抽取规则的自动生成技术

张志远 ^1,2，徐涛 ^1,2，冯霞^1,2

(1. 中国民航大学计算机科学与技术学院，天津 300300；2. 中国民航信息技术科研基地，天津 300300)

出版日期:2011-03-20 发布日期:2011-03-29
作者简介:张志远(1978－)，男，讲师，主研方向：数据挖掘；徐涛、冯霞，教授
基金资助:
国家“863”计划基金资助重点项目(2006AA12A106)；中国民航大学科研基金资助项目(07kym04)

Auto Generation Technology for Flight Information Extraction Rules

ZHANG Zhi-Yuan ^1,2, XU Tao ^1,2, FENG Xia ^1,2

(1. School of Computer Science & Technology, Civil Aviation University of China, Tianjin 300300, China; 2. Information Technology Research Base of CAAC, Tianjin 300300, China)

Online:2011-03-20 Published:2011-03-29

摘要/Abstract

摘要： 在基于包装器的Web信息提取工作中，抽取规则占有重要的地位。由于网页经常改版，使得抽取规则需要不断更新，且手工生成抽取规则是一项费时费力的工作。为此，提出一种自动生成抽取规则的方法，通过扫描HTML源码，生成带语义信息的TABLE树，用以识别网页中的数据表格，并在此基础上利用贪心算法自动生成抽取规则。实验结果表明，该方法具有较高的准确率和F指数，且对于识别出的表格具有较高的规则生成率。

关键词: Web信息提取, 抽取规则, 语义TABLE树, 贪心算法

Abstract: Extraction rule plays an important role in Web information extraction based on wrappers. As the Web pages often change, the rule is updated frequently. However, it is a hard work to find extraction rule by hand. This paper proposes an auto extraction rule generation method, which constructs a semantic TABLE tree after scanning HTML code. The semantic TABLE trees is used to identify the data table, and the extraction rule is generated automatically through a greedy algorithm. Experiment result shows that it has high precision and F-score, and has high rule generation rate to the identified table.

Key words: Web information extraction, extraction rules, semantic TABLE trees, greedy algorithm

中图分类号:

TP311

张志远, 徐涛, 冯霞. 航班信息抽取规则的自动生成技术[J]. 计算机工程, 2011, 37(6): 65-67.

ZHANG Zhi-Yuan, XU Chao, FENG Xia. Auto Generation Technology for Flight Information Extraction Rules[J]. Computer Engineering, 2011, 37(6): 65-67.

https://www.ecice06.com/CN/Y2011/V37/I6/65

[1]	缪欣, 陈璇, 鲍红莹, 张静轩, 余炜. 移动传感器网络中路径扫描覆盖问题研究[J]. 计算机工程, 2022, 48(12): 150-155,164.
[2]	杨奔, 王炜晔, 赵婉婷, 谢瑾奎. 基于DQN的动态深度多分支搜索自动配载算法[J]. 计算机工程, 2020, 46(8): 313-320.
[3]	郑金金,罗志年. LTE-A系统载波聚合下基于贪心算法的资源管理[J]. 计算机工程, 2017, 43(11): 50-54.
[4]	吕天航,刘勤让,赵博. 基于贪心算法的3D-Mesh片上网络层间互联结构[J]. 计算机工程, 2016, 42(9): 52-57.
[5]	魏浩,陈华锋,陈军. 基于路径覆盖的城市监控摄像网络优化部署方法[J]. 计算机工程, 2016, 42(5): 269-274.
[6]	张翔,朱明,孙吟龙,方雪峰. 网络电视直播中的虚拟频道生成算法[J]. 计算机工程, 2015, 41(12): 236-240.
[7]	凌权,李枚毅. 无线Mesh网络中骨干节点部署算法研究[J]. 计算机工程, 2015, 41(11): 147-152.
[8]	程权, 廖名学, 胡晓惠, 何晓新. 超短波无线网络规划方法研究[J]. 计算机工程, 2013, 39(2): 61-66.
[9]	张佩云，宫秀文. 基于概率转移矩阵的社会网络影响最大化算法[J]. 计算机工程, 2013, 39(11): 41-45,51.
[10]	徐云峰, Rudolf Fleischer. 求解区间图K-连接最短路径问题的在线算法[J]. 计算机工程, 2012, 38(11): 51-52,55.
[11]	陈光平. 传感器网络节点选择的分布式在线算法[J]. 计算机工程, 2012, 38(10): 95-98.
[12]	翁鸣, 王吴静. 基于报童模型和贪心算法的订货管理系统[J]. 计算机工程, 2012, 38(01): 261-263,267.
[13]	孙泽宇, 邢萧飞, 魏巍. 无线传感器网络中的目标关联覆盖算法[J]. 计算机工程, 2011, 37(9): 138-140,143.
[14]	解姝, 叶施仁, 肖春. 社会媒体网页内容的分割与抽取[J]. 计算机工程, 2011, 37(21): 155-158.
[15]	彭胜蓝, 周一鸣. 寡核苷酸芯片的逐步探针选取算法[J]. 计算机工程, 2010, 36(22): 32-33.

选择文件类型/文献管理软件名称

选择包含的内容

航班信息抽取规则的自动生成技术

Auto Generation Technology for Flight Information Extraction Rules

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

航班信息抽取规则的自动生成技术

Auto Generation Technology for Flight Information Extraction Rules

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价