面向Deep Web本地化数据集成的数据源两层选择模型

doi:10.3969/j.issn.1000-3428.2017.03.006

计算机工程

面向Deep Web本地化数据集成的数据源两层选择模型

鲜学丰^1,2,崔志明^1,2,方立刚¹,顾才东¹,孙逊¹

(1.江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏苏州 215104;2.苏州大学智能信息处理及应用研究所,江苏苏州 215006)

收稿日期:2016-02-19 出版日期:2017-03-15 发布日期:2017-03-15
作者简介:鲜学丰(1980—),男,副教授、博士,主研方向为Web数据管理、数据挖掘;崔志明,教授、博士生导师;方立刚,副教授、博士;顾才东,教授、硕士;孙逊,助理实验师、硕士。
基金资助:
国家自然科学基金(61440053,61472268,41201338);苏州市科技计划研究项目(SYG201342,SYG201343,SS201344)。

Data Source Two-layer Selection Model for Deep Web Localized Data Integration

XIAN Xuefeng^1,2,CUI Zhiming ^1,2,FANG Ligang¹,GU Caidong¹,SUN Xun¹

(Jiangsu Province Support Software Engineering R & D Center for Modern Information Technology Application in Enterprise,Suzhou,Jiangsu 215104,China;2. Institute of Intelligent Information Processing and Application,Soochow University,Suzhou,Jiangsu 215006,China)

Received:2016-02-19 Online:2017-03-15 Published:2017-03-15

摘要/Abstract

摘要：

针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。

关键词: 深层网页, 数据集成, 数据源选择, 数据源质量, 效用模型, 递归增量策略

Abstract: Aiming at the problems that the data source based on the selection method of data source quality exists in selection process are heavy crawling price and high repetition rate,this paper proposes a two-layer selection model for source selection and integration. The selection model is built based on the quality and utility of the data source,and a recursive incremental data source selection and integration strategy is presented based on the model. The strategy adopts a data source quality classifier to filter majority low-grade Deep Web resources,only leaveing several high-quality ones as the input of the second layer utility classifier. The second layer classifier chooses the processed candidate resources recursively,which enables the integrated system to extract as much high qualified resources while escaping to get high coverage over k. Experimental results show that,combined the ascendency of two classifiers,the designed model can reduce the space of candidate data resources while assuring the quality,and it simultaneously avoids processing huge amounts of repeated data and reduces the integrated cost of Deep Web resources extraction effectively.

Key words: Deep Web, data integration, data source selection, data source quality, utility model, recursive incremental strategy

中图分类号:

TP392

鲜学丰,崔志明,方立刚,顾才东,孙逊. 面向Deep Web本地化数据集成的数据源两层选择模型[J]. 计算机工程.

XIAN Xuefeng,CUI Zhiming,FANG Ligang,GU Caidong,SUN Xun. Data Source Two-layer Selection Model for Deep Web Localized Data Integration[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2017/V43/I3/32

参考文献

参考文献［1］方巍.基于本体的Deep Web信息集成关键技术研究［D］. 苏州:苏州大学,2009. ［2］Yu C T,Philip G,Meng W. Distributed Top-N Query Processing with Possibly Uncooperative Local Systems［C］//Proceedings of the 29th International Conference on Very Large Data Bases. Berlin,Germany:Springer,2003:117-128. ［3］Hong D,Si L,Bracke P,et al. A Joint Probabilistic Classification Model for Resource Selection［C］//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,USA:ACM Press,2010:98-105. ［4］范举,周立柱. 基于关键词的深度万维网数据库选择［J］.计算机学报,2011,34(10):1797-1804. ［5］万常选,邓松,刘德喜,等,面向混合类型关键词查询的非合作结构化深网数据源选择［J］.计算机研究与发展,2014,51(4):905-917. ［6］Dong X L,Saha B,Srivastava D. Less is More:Selecting Sources Wisely for Integration［C］//Proceedings of the 39th International Conference on Very Large Data Bases Endowment. Riva del Garda,Trento:Springer,2013:37-48. ［7］闫中敏.Deep Web数据获取问题研究［D］. 济南:山东大学,2010. ［8］Aboulnaga A,Gebaly K E. μBE:User Guided Source Selection and Schema Mediation for Internet Scale Data Integration［C］//Proceedings of IEEE International Conference on Data Engineering. Istanbul,Turkey:［s.n.］,2007:186-195. ［9］Rekatsinas T,Dong X L,Srivastava D. Characterizing and Selecting Fresh Data Sources［C］//Proceedings of ACM Conference on Management of Data. Snowbird,USA,ACM Press,2014:919-930. ［10］余伟,李石君,文利娟,等.基于数据质量的Deep Web 数据源排序［J］.小型微型计算机系统,2010,31(4):641-646. ［11］郭若飞,蔡欣宝,赵朋朋,等. 基于Choque积分的深层网数据源选择［J］. 计算机工程,2011,37(4):40-42. ［12］万常选,邓松,刘喜平,等,Web数据源选择技术［J］.软件学报,2013,24(4):781-797. ［13］鲜学丰,方巍,赵朋朋,等,一种Deep Web数据源质量估计模型［J］.微电子学与计算机,2008,25(10):47-50. ［14］刘伟,孟小峰,凌妍妍. 一种基于图模型的Web数据库采样方法［J］. 软件学报,2008,19(2):179-193. ［15］凌妍妍,孟小峰,刘伟. 基于属性相关度的Web数据库大小估算方法［J］. 软件学报,2008,19(2):224-236. 编辑索书志

[1]	谢坤, 容钰添, 胡奉平, 陈桓, 姚小龙. 基于数据集成的随机森林算法[J]. 计算机工程, 2020, 46(12): 290-298.
[2]	孙伟娟,王宁. 基于一致性支持度的实体top-k扩展算法[J]. 计算机工程, 2019, 45(4): 181-188.
[3]	张静,李国庆,于文洋. 基于OpenSearch的对地观测数据统一集成发现[J]. 计算机工程, 2016, 42(6): 60-67.
[4]	邓松. 实体信息集成检索的深网数据源选择[J]. 计算机工程, 2016, 42(10): 75-79.
[5]	王宁,黄敏. 基于MapReduce与两层相关性聚类的实体解析方法[J]. 计算机工程, 2015, 41(9): 80-84,91.
[6]	葛敬军,孔繁之,张明,滕剑锋,刘歆. 数据密集型应用中的异构数据集成服务研究[J]. 计算机工程, 2015, 41(7): 60-65.
[7]	李晓华, 邓伟. 基于数据集成的基因调控网络构建[J]. 计算机工程, 2012, 38(22): 263-266.
[8]	郭若飞, 蔡欣宝, 赵朋朋, 崔志明. 基于Choquet积分的深层网数据源选择[J]. 计算机工程, 2011, 37(4): 40-42.
[9]	郑凯, 梁卓明, 郑文栋. 数据集成环境下基于相似度的数据库聚类算法[J]. 计算机工程, 2011, 37(19): 71-72,75.
[10]	钟将, 宋娟. 基于本体的异构数据集成框架[J]. 计算机工程, 2011, 37(14): 44-46.
[11]	薛尧予;王建林;赵利强. 分布式过程实时数据集成方法及其实现[J]. 计算机工程, 2010, 36(3): 55-57.
[12]	李柳青, 冯志勇, 刘超. 基于多源异构数据的查询分解算法[J]. 计算机工程, 2010, 36(23): 56-58.
[13]	王盼卿, 刘增良, 陶源. SDO在装备保障领域系统集成中的应用[J]. 计算机工程, 2010, 36(14): 267-269.
[14]	赵朋飞, 李乃乾. 基于XML的分布式数据库集成系统[J]. 计算机工程, 2010, 36(13): 70-72.
[15]	张琳娜;王映辉;. 基于节点自治的分布式数据共享模型[J]. 计算机工程, 2009, 35(3): 32-35,3.

选择文件类型/文献管理软件名称

选择包含的内容

面向Deep Web本地化数据集成的数据源两层选择模型

Data Source Two-layer Selection Model for Deep Web Localized Data Integration

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

面向Deep Web本地化数据集成的数据源两层选择模型

Data Source Two-layer Selection Model for Deep Web Localized Data Integration

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价