计算机工程

• 先进计算与数据处理 • 上一篇    下一篇

大数据环境下Web数据源质量评估方法研究

赵星 1,李石君 1,余伟 1,2,杨莎 1,丁永刚 1,胡亚慧 1   

  1. (1.武汉大学 计算机学院,武汉 430072; 2.纽约州立大学宾汉姆顿分校 计算机科学系,纽约 13905)
  • 收稿日期:2016-01-05 出版日期:2017-02-15 发布日期:2017-02-15
  • 作者简介:赵星(1990—),男,硕士研究生,主研方向为数据分析、数据库管理;李石君,教授、博士;余伟、杨莎,讲师、博士;丁永刚,副教授、博士;胡亚慧,讲师、博士。
  • 基金项目:
    国家自然科学基金(61502350,61672393,U1536114);中央高校基本科研业务费专项资金项目(2042014kf0057);湖北省自然科学基金(2014 CFB289)。

Research on Web Data Source Quality Assessment Method in Big Data

ZHAO Xing 1,LI Shijun 1,YU Wei 1,2,YANG Sha 1,DING Yonggang 1,HU Yahui 1   

  1. (1.School of Computer,Wuhan University,Wuhan 430072,China;2.Department of Computer Science,Binghamton University,State University of New York,New York 13905,USA)
  • Received:2016-01-05 Online:2017-02-15 Published:2017-02-15

摘要: 在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。

关键词: 大数据, Web数据源, 数据质量评估, 全样本分析, MapReduce框架

Abstract: The irregularity of data quality from different Internet platforms,which is caused by openness and multi-source,has affected negatively knowledge acquiring from Internet in big data environment.Aiming at this problem,this paper proposes a Web data source quality assessment method.It establishes a unified data model and data quality standard model for multi-source Internet platform,gives quality standards measurement and representation methods for full sample data analysis of big data,and achieves the unity of Web data source quality metrics by comprehensive assessment of multidimensional data quality.Experimental results show that this method can comprehensively measure data quality of Internet platforms,provide accurate and efficient quality evaluation results for users.

Key words: big data, Web data source, data quality assessment, full sample analysis, MapReduce framework

中图分类号: