作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2020, Vol. 46 ›› Issue (7): 286-293,299. doi: 10.19678/j.issn.1000-3428.0054925

• 开发研究与工程应用 • 上一篇    下一篇

异构文本数据转换中XML解析方法对比研究

何卓桁1, 刘志勇1, 李璐2, 李长明3, 张琳4   

  1. 1. 东北师范大学 信息科学与技术学院, 长春 130024;
    2. 同济大学 软件学院, 上海 200092;
    3. 长春光华学院 电气信息学院, 长春 130033;
    4. 吉林大学 软件学院, 长春 130012
  • 收稿日期:2019-05-15 修回日期:2019-07-22 发布日期:2019-08-15
  • 作者简介:何卓桁(1994-),男,硕士研究生,主研方向为数据挖掘、数据预处理;刘志勇(通信作者),副教授、博士;李璐,本科生;李长明,硕士;张琳,研究员。
  • 基金资助:
    吉林省教育厅"十三五"科学技术研究规划项目"基于高校学生综合素质测评数据预测职业发展方向研究"(202118628);吉林省教育厅新工科研究与实践项目"U-G-E'卓越软件工程师’人才培养模式与实践教学深化改革"(131003229)。

Comparative Study of XML Parsing Methods in Heterogeneous Text Data Conversion

HE Zhuoheng1, LIU Zhiyong1, LI Lu2, LI Changming3, ZHANG Lin4   

  1. 1. School of Information Science and Technology, Northeast Normal University, Changchun 130024, China;
    2. School of Software, Tongji University, Shanghai 200092, China;
    3. School of Electrical and Information Engineering, Changchun Guanghua University, Changchun 130033, China;
    4. School of Software, Jilin University, Changchun 130012, China
  • Received:2019-05-15 Revised:2019-07-22 Published:2019-08-15

摘要: 对异构文本数据转换过程中解析XML文本的DOM、SAX、JDOM、DOM4J方法进行对比研究,以解析时间、内存堆占用空间、CPU占用率为评价指标来判定4种解析方法的优劣。该评价方法的优势在于当数据量或数据属性发生变化时,4种解析方法对评价结果的影响仍具有良好的区分度。通过对10份Web日志异构文本数据转换后的XML数据集进行比较,实验结果表明,当数据量增大且以解析时间为重点时,DOM4J解析方法优于其他3种解析方法,当以空间占用为重点时,SAX解析方法优于其他3种解析方法。

关键词: 异构文本, XML解析, 数据结构转换, 时间复杂度, 空间复杂度

Abstract: This paper compares and studies the DOM,SAX,JDOM,DOM4J methods for parsing XML texts in heterogeneous text data conversion.The pros and cons of the four parsing methods are judged based on parsing time,memory heap space,and CPU occupancy rate.The advantage of this evaluation method is that when the amount of data or data attributes change,the impact of the four analytical methods on the evaluation results still has a good degree of discrimination.By comparing 10 converted XML datasets of heterogeneous text data of Web log,experimental results show that when the amount of data increases and the analysis time is mainly concerned,the DOM4J parsing method is superior to the other three analysis methods.When space occupation is mainly concerned,the SAX parsing method is superior to the other three analysis methods.

Key words: heterogeneous text, XML parsing, data structure conversion, time complexity, space complexity

中图分类号: