计算机工程 ›› 2019, Vol. 45 ›› Issue (7): 26-31.doi: 10.19678/j.issn.1000-3428.0051856

• 先进计算与数据处理 • 上一篇    下一篇

基于层级规则树的跨平台基因表达数据分类

蔡瑞初1, 侯永杰1, 郝志峰1,2   

  1. 1. 广东工业大学 计算机学院, 广州 510006;
    2. 佛山科学技术学院 数学与大数据学院, 广东 佛山 528000
  • 收稿日期:2018-06-19 修回日期:2018-08-09 出版日期:2019-07-15 发布日期:2019-07-23
  • 作者简介:蔡瑞初(1983-),男,教授、博士,主研方向为大数据分析、因果关系发现、机器学习;侯永杰,硕士研究生;郝志峰,教授。
  • 基金项目:
    国家自然科学基金(61472089);NSFC-广东联合基金(U1501254);广东省自然科学基金(2014A030306004,2014A030308008);广东省科技计划项目(2015B010108006,2015B010131015);广东特支计划(2015TQ01X140);广州市科技计划项目(201604016075);广州市珠江科技新星专项(201610010101)。

Cross-platform Gene Expression Data Classification Based on Hierarchical Rule Tree

CAI Ruichu1, HOU Yongjie1, HAO Zhifeng1,2   

  1. 1. School of Computers, Guangdong University of Technology, Guangzhou 510006, China;
    2. School of Mathematics and Big Data, Foshan University, Foshan, Guangdong 528000, China
  • Received:2018-06-19 Revised:2018-08-09 Online:2019-07-15 Published:2019-07-23

摘要: 基因检测技术运用至今已积累大量来自不同平台的数据,针对传统数据分类模式难以在不同平台间进行有效迁移的问题,提出一种基于层级规则树的基因表达数据分类算法k-HRT。设计数据转换与规则预筛选策略,实现算法的快速挖掘,以解决由跨平台特性所带来的大规模数据问题。在真实基因表达数据集上的实验结果表明,相对k-TSP算法、SVM-RFE算法,k-HRT算法能够有效提高分类精度。

关键词: 数据分类, 跨平台, 规则学习, 特征选择, 基因表达数据

Abstract: The application of genetic testing technology has accumulated a large amount of data from different platforms.To address the problem that it is difficult to migrate traditional data classification modes across different platforms,this paper proposes a gene expression data classification algorithm k-HRT based on Hierarchy Rule Tree(HRT).The strategy of data conversion and rule pre-screening is designed to realize the fast mining of the algorithm to solve the large-scale data problems caused by cross-platform characteristics.Experimental results on real gene expression datasets show that,compared with k-TSP algorithm and SVM-RFE algorithm,k-HRT algorithm can effectively improve classification accuracy.

Key words: data classification, cross-platform, rule learning, feature selection, gene expression data

中图分类号: