作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2019, Vol. 45 ›› Issue (4): 124-129. doi: 10.19678/j.issn.1000-3428.0050368

• 安全技术 • 上一篇    下一篇

基于贝叶斯网络与语义树的隐私数据发布方法

郝志峰1,2,王日宇1,蔡瑞初1,温雯1   

  1. 1.广东工业大学 计算机学院,广州 510006; 2.佛山科学技术学院 数学与大数据学院,广东 佛山 528000
  • 收稿日期:2018-01-31 出版日期:2019-04-15 发布日期:2019-04-15
  • 作者简介:郝志峰(1968—),男,教授,主研方向为信息安全、机器学习、人工智能;王日宇(通信作者),硕士研究生;蔡瑞初,教授;温雯,副教授。
  • 基金资助:

    广东省自然科学基金(2014A030306004,2014A030308008);广东省科技计划项目(2015B010108006,2015B010131015);广东特支计划(2015TQ01X140);广州市珠江科技新星(201610010101);广州市科技计划项目(201604016075)。

Privacy Data Publishing Method Based on Bayesian Network and Semantic Tree

HAO Zhifeng1,2,WANG Riyu1,CAI Ruichu1,WEN Wen1   

  1. 1.School of Computers,Guangdong University of Technology,Guangzhou 510006,China; 2.School of Mathematics and Big Data,Foshan University,Foshan,Guangdong 528000,China
  • Received:2018-01-31 Online:2019-04-15 Published:2019-04-15

摘要:

为在隐私预算相同的条件下提高发布数据的可用性,在PrivBayes的基础上,提出一种改进的隐私数据发布方法PrivBayes_Hierarchical。基于贝叶斯网络隐私数据发布方法的思想,引入语义树对含有层次关系的数据属性进行抽象,使用贝叶斯网络描述数据属性之间的依赖关系。利用格雷码减少随机噪声对数据精度的影响,并对贝叶斯网络结构学习方法进行优化,以减少不必要的隐私预算消耗,提高数据可用性。实验结果表明,该方法在公开数据集下可以获得比PrivBayes更高的数据精度,从而提升隐私数据集的可用性。

关键词: 差分隐私, 数据发布, 贝叶斯网络, 数据分析, 隐私保护

Abstract:

In order to improve the availability of published data under the same privacy budget,an improved privacy data publishing method PrivBayes_Hierarchical is proposed based on PrivBayes.Based on the idea of Bayesian network privacy data publishing method,semantic tree is introduced to abstract the data attributes with hierarchical relationships,and Bayesian network are used to describe the dependencies between data attributes.Using Graycode to reduce the impact of random noise on the data accuracy and to optimize the Bayesian network structure learning method to reduce unnecessary privacy budget consumption and improve the availability of data.Experimental results show that this method can obtain higher data precision than PrivBayes for public data and improve the availability of private data sets.

Key words: differential privacy, data publishing, Bayesian network, data analysis, privacy preserving

中图分类号: