HTML表格向XML的智能转换

doi:10.3969/j.issn.1000-3428.2009.14.012

计算机工程 ›› 2009, Vol. 35 ›› Issue (14): 32-34.

HTML表格向XML的智能转换

贾长云1，程永上2

(1. 淮海工学院计算机工程学院，连云港 222069；2. 河海大学计算机与信息工程学院，南京 210000)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-07-20 发布日期:2009-07-20

Intelligence Conversion of HTML Table into XML

JIA Chang-yun1, CHENG Yong-shang2

(1. School of Computer Engineering, Huaihai Institute of Technology, Lianyungang 222069;2. College of Computer and Information Engineering, Hohai University, Nanjing 21000)

Received:1900-01-01 Revised:1900-01-01 Online:2009-07-20 Published:2009-07-20

摘要/Abstract

摘要： XML已经成为处理与管理信息的标准格式，而HTML表格被广泛应用于Web。为了充分利用与管理HTML表格信息，需要将HTML表格转换成XML。提出一种有效的处理方法，该方法包含2个部分，即表格识别与结构转换。表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域，使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式。通过 300多个表格的实验表明，所提出的方法要优于传统方法，结果的准确率达86.7%。

关键词: HTML表格, 结构分析, 规范化, 信息提取, 可扩展标记语言

Abstract: While HTML tables are widely applied for Web, XML is widely accepted as a standard format to process and manage information. In order to utilize and manage XML, the HTML tables should be transformed into XML representations. This paper presents an efficient method for the process, which consists of two phases, such as area segmentation and structure analysis. The area segmentation cleans up tables and segments them into attribute and value areas by checking visual and semantic coherency. The hierarchical structure between attribute and value areas is analyzed and transformed into an XML representation using a proposed table model. Experimental results with more than 300 HTML tables show that the proposed method performs better than conventional methods, resulting in an average accuracy of 86.7%.

Key words: HTML table, structure analysis, normalization, information extraction, XML

中图分类号:

TP311

贾长云;程永上. HTML表格向XML的智能转换[J]. 计算机工程, 2009, 35(14): 32-34.

JIA Chang-yun; CHENG Yong-shang. Intelligence Conversion of HTML Table into XML[J]. Computer Engineering, 2009, 35(14): 32-34.

https://www.ecice06.com/CN/Y2009/V35/I14/32

[1]	张雯雯, 徐杨, 白芮, 陈娜. 基于改进堆叠沙漏网络的动物姿态估计[J]. 计算机工程, 2023, 49(2): 263-270.
[2]	郭彪, 唐麒, 文智敏, 傅娟, 王玲, 魏急波. 面向SCA的DPR软件架构设计与调度技术[J]. 计算机工程, 2021, 47(12): 221-229.
[3]	王烁, 谷正气, 韩征彤, 马晓骙. 基于改进离散差分进化算法的桁架优化[J]. 计算机工程, 2021, 47(1): 275-283.
[4]	冯旭,华庆一,樊攀,王文建. 一种移动设备用户界面描述语言的设计与实现[J]. 计算机工程, 2019, 45(3): 73-77,90.
[5]	王文奇,李勇,关云云. 文本信息深度提取及多关键词并行匹配技术研究[J]. 计算机工程, 2018, 44(12): 281-287.
[6]	张丽方,王宁,齐飞. Web表格的实体列发现算法[J]. 计算机工程, 2017, 43(12): 165-172.
[7]	马冬冬,衷璐洁,朱敬茹. 基于GPU的LLVM程序分析信息并行提取[J]. 计算机工程, 2017, 43(10): 23-30.
[8]	仰继连. 基于MMAE指数的高光谱影像序列微弱变化信息提取[J]. 计算机工程, 2016, 42(7): 261-266.
[9]	高万辰,廖湖声,苏航. 基于部分求值的Twig查询优化[J]. 计算机工程, 2016, 42(3): 53-60,68.
[10]	彭敏,傅慧,黄济民,黄佳佳,刘纪平. 基于核主成分分析与小波变换的高质量微博提取[J]. 计算机工程, 2016, 42(1): 180-186.
[11]	彭敏,高斌龙,黄济民,刘纪平. 基于高质量信息提取的微博自动摘要[J]. 计算机工程, 2015, 41(7): 36-42.
[12]	吴晓芳,杨志豪,林鸿飞,王健. 基于语义关系的疾病知识提取系统[J]. 计算机工程, 2015, 41(1): 284-288.
[13]	褚衍杰,魏强,李云照. 基于关键词语义与作用域扩展的事件检测[J]. 计算机工程, 2014, 40(8): 273-276,281.
[14]	黄安琪，冯超，孙建锋，唐朝京. 基于软件无线电平台的RFID被动侦测技术[J]. 计算机工程, 2014, 40(4): 91-95.
[15]	王维盛,贾向东. 左儿子右兄弟链式相关的XML 动态编码方案[J]. 计算机工程, 2014, 40(11): 56-59.

选择文件类型/文献管理软件名称

选择包含的内容

HTML表格向XML的智能转换

Intelligence Conversion of HTML Table into XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

HTML表格向XML的智能转换

Intelligence Conversion of HTML Table into XML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价