一种有效的XML数据清洗方法

doi:10.3969/j.issn.1000-3428.2008.15.017

计算机工程 ›› 2008, Vol. 34 ›› Issue (15): 47-50. doi: 10.3969/j.issn.1000-3428.2008.15.017

一种有效的XML数据清洗方法

韩京宇1,2，成瑜2，董逸生2

（1. 南京邮电大学计算机学院，南京 210003；2. 东南大学计算机科学与工程系，南京 210096）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-08-05 发布日期:2008-08-05

Efficient Cleaning Approach for XML Data

HAN Jing-yu1,2, CHENG Yu2, DONG Yi-sheng2

（1. School of Computer, Nanjing University of Posts & Telecomunications, Nanjing 210003; 2. Department of Computer Science and Engineering, Southeast University, Nanjing 210096）

Received:1900-01-01 Revised:1900-01-01 Online:2008-08-05 Published:2008-08-05

摘要/Abstract

摘要： 研究XML格式的重复数据元素的特点，提出对于特定应用领域，在具体的上下文环境中主动学习XML重复元素的识别规则。通过结构转换，将结构不尽相同的XML数据映射成结构一致的数据，并通过学习不同层次数据元素间的依赖关系权重来获得匹配规则。根据学习得到的转换和匹配规则，采用哈希过滤的方法来提高检测重复XML元素的效率。该方法能够有效地解决XML重复检测面临的结构多样性的问题，理论分析和实验表明，该方法有较高的精度和效率。

关键词: 主动学习, 匹配规则, 哈希

Abstract: By studying characteristics of duplicate XML data, this paper proposes an active machine learning method for a specific application, which is applied to glean transformation rules and matching rules, and accurately identify duplicate XML elements. Transfomation rules are used to eliminate the structural diversities among elements and matching rules are used to identify the relationships between parent and child nodes. In turn, during the detection phase an efficient hash filter algorithm is proposed to reduce computational complexity. Theory and experiment shows that the method can solve this problem efficiently and effectively.

Key words: active learning, matching rules, hash

中图分类号:

TP311

韩京宇;成瑜;董逸生. 一种有效的XML数据清洗方法[J]. 计算机工程, 2008, 34(15): 47-50.

HAN Jing-yu; CHENG Yu; DONG Yi-sheng. Efficient Cleaning Approach for XML Data[J]. Computer Engineering, 2008, 34(15): 47-50.

http://www.ecice06.com/CN/Y2008/V34/I15/47

[1]	梁天佑, 孟敏, 武继刚. 基于特征融合的无监督跨模态哈希[J]. 计算机工程, 2023, 49(2): 90-97.
[2]	何悦, 陈广胜, 景维鹏, 徐泽堃. 基于深度多相似性哈希方法的遥感图像检索[J]. 计算机工程, 2023, 49(2): 206-212.
[3]	曾畅, 蒋文保, 郭阳楠. 基于有序哈希链的文件数据同步方法[J]. 计算机工程, 2023, 49(1): 181-190,200.
[4]	韦丞婧, 李国东. 结合超混沌系统和Logistic映射的视频图像加密算法[J]. 计算机工程, 2022, 48(5): 263-271.
[5]	彭红艳, 李杰, 石贞奎, 李先贤. 一种基于区块链可验证的加密图像检索方案[J]. 计算机工程, 2022, 48(2): 25-33,39.
[6]	顾岩, 赵崇宇, 黄平. 基于高阶统计信息的深度哈希学习模型[J]. 计算机工程, 2020, 46(7): 260-267,276.
[7]	任德志, 陈炬光, 王勇, 段晓冉, 郝玉洁, 吴晓华. 基于MIR树的空间查询验证方法[J]. 计算机工程, 2020, 46(3): 114-119,128.
[8]	李洁, 朱洪亮, 陈玉玲, 辛阳. 基于哈希存储与事务加权的并行Apriori改进算法[J]. 计算机工程, 2020, 46(11): 109-116.
[9]	葛炳辉, 赵宗渠, 何铮, 秦攀科. 格上可编程哈希函数的环签名方案[J]. 计算机工程, 2020, 46(10): 131-136.
[10]	史志才, 王益涵, 张晓梅, 陈计伟, 陈珊珊. 一种具有隐私保护与前向安全的RFID组证明协议[J]. 计算机工程, 2020, 46(1): 108-113.
[11]	叶青, 王明明, 汤永利, 秦攀科, 王永军. 格上基于可编程哈希函数的HIBE方案[J]. 计算机工程, 2020, 46(1): 129-135,143.
[12]	代亚兰,何朗,黄樟灿. 基于稀疏自编码的无监督图像哈希算法[J]. 计算机工程, 2019, 45(5): 222-225,236.
[13]	沈鑫娣,翟东君,张得天,刘安. 基于LSH的隐私保护POI推荐算法[J]. 计算机工程, 2019, 45(1): 96-102.
[14]	黄保华,吕琦,莫家威. 云存储中基于拼音相似度的密文模糊搜索方案[J]. 计算机工程, 2019, 45(1): 103-108.
[15]	谭跃生,郉晨烁,王静宇. 一种支持细粒度属性变更的云访问控制方案[J]. 计算机工程, 2018, 44(8): 7-13.

选择文件类型/文献管理软件名称

选择包含的内容

一种有效的XML数据清洗方法

Efficient Cleaning Approach for XML Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种有效的XML数据清洗方法

Efficient Cleaning Approach for XML Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价