基于Hadoop的微阵列数据两阶段并行K近邻基因提取

doi:10.3969/j.issn.1000-3428.2016.05.010

计算机工程

基于Hadoop的微阵列数据两阶段并行K近邻基因提取

齐向明¹,郑帅¹,魏萍²

(1.辽宁工程技术大学软件学院,辽宁葫芦岛 125105; 2.中国石油大学地球物理与信息工程学院,北京 102249)

收稿日期:2015-04-10 出版日期:2016-05-15 发布日期:2016-05-13
作者简介:齐向明(1966－),男,副教授、硕士,主研方向为数据挖掘、大数据技术、图形图像处理;郑帅,硕士;魏萍,讲师、博士。
基金资助:
辽宁省教育厅基金资助项目(L2012113)。

Micro-array Data Two-stage Parallel K Nearest Neighbor Gene Extraction Based on Hadoop

QI Xiangming¹,ZHENG Shuai ¹,WEI Ping²

(1.College of Software,Liaoning Technical University,Huludao,Liaoning 125105,China; 2.College of Geophysics and Information Engineering,China University of Petroleum,Beijing 102249,China)

Received:2015-04-10 Online:2016-05-15 Published:2016-05-13

摘要/Abstract

摘要： 基因信息选取工作中由于数据量庞大,传统单线程运行的分类查询方法无法满足实时性与提取精度要求。为此,利用Hadoop框架设计两阶段并行计算模型。其中第1阶段用于候选基因子集并行选取,第2阶段用于并行K近邻基因信息选取,从而实现并行计算的全过程覆盖。为降低算法的计算复杂度,针对基因信息微阵列数据,定义数据筛选指标对其进行采样,在降低数据处理量的同时消除数据冗余。实验结果表明,该算法具有较高的运行效率,并且继承了Hadoop编程模型的可扩展特性,可移植性较强。

关键词: Hadoop框架, 并行计算, 微阵列采样, 大数据, K近邻, 基因信息

Abstract: Because of huge amount of data in gene information extraction,whose real-time requirements can not be met by traditional methods with single threaded operation,the Hadoop framework is used to design the two-stage parallel computing model.The first stage is used to extract candidate gene subset,and the second stage is used to extract parallel K nearest neighbor genetic information,and it implements whole process cover of parallel computing.At the same time,in order to further reduce the computational complexity of the algorithm,the microarray data sampling method is used to reduce the amount of data processing and eliminate data redundancy.Experimental results show that the proposed algorithm has better running efficiency,inherits the extensible features of Hadoop programming model,and has strong portability.

Key words: Hadoop framework, parallel computing, micro-array sampling, big data, K nearest neighbor, gene information

中图分类号:

TP18

齐向明,郑帅,魏萍. 基于Hadoop的微阵列数据两阶段并行K近邻基因提取[J]. 计算机工程.

QI Xiangming,ZHENG Shuai,WEI Ping. Micro-array Data Two-stage Parallel K Nearest Neighbor Gene Extraction Based on Hadoop[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2016/V42/I5/54

参考文献

参考文献［1］Katsigiannis K,Zacharia E,Maroulis D.Grow-cut Based Automatic cDNA Microarray Image Segmentation［J］.IEEE Transactions on NanoBioscience,2015,14(1):138-144. ［2］Sakashita H,Akamine S,Ishida T.Erratum to:Identification of the NEDD4L Gene as a Prognostic Marker by Integrated Microarray Analysis of Copy Number and Gene Expression Profiling in Non-small Cell Lung Cancer［J］.Annals of Surgical Oncology,2014,21(4):783-792. ［3］于化龙,顾国昌,赵靖.基于 DNA 微阵列数据的癌症分类问题研究进展［J］.计算机科学,2010,37(10):16-21. ［4］印莹,赵宇海,张斌.时序微阵列数据中的同步和异步共调控基因聚类［J］.计算机学报,2007,30(8):1302-1309. ［5］Patrick C H,Keith C C,Yao Xin.An Evolutionary Clustering Algorithm for Gene Expression Microarray Data Analysis［J］.IEEE Transactions on Evolutionary Computation,2006,10(3):296-314. ［6］Chan S C,Wu Haichang,Tsui K M.A New Method for Preliminary Identification of Gene Regulatory Networks from Gene Microarray Cancer Data Using Ridge Partial Least Squares with Recursive Feature Elimination and Novel Brier and Occurrence Probability Measures［J］.IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2012,42(6):1514-1528. ［7］张靖,胡学钢,李培培.基于迭代 Lasso 的肿瘤分类信息基因选择方法研究［J］.模式识别与人工智能,2014,27(1):49-59. ［8］史建军,缪裕青.微阵列数据中Top-k频繁闭合项集挖掘［J］.计算机工程,2011,37(2):60-62. ［9］宋佳,许力,孙洪.基于图论的 DNA 微阵列数据聚类算法［J］.计算机工程,2015,40(5):36-39. ［10］Lee C P,Leu Y.A Novel Hybrid Feature Selection Method for Microarray Data Analysis［J］.Application Software Computing,2011,11(1):208-213. ［11］Dolled-Filhart M,Ryden L,Cregger M.Classification of Breast Cancer Using Genetic Algorithms and Tissue Microarrays［J］.Clinical Cancer Research,2006,12(21):6459-6468. ［12］罗美淑,刘世勇,石磊.一种基于微阵列数据的集成分类方法［J］.计算机应用研究,2010,27(1):104-106. ［13］马友忠,慈祥,孟小峰.海量高维向量的并行top-k连接查询［J］.计算机学报,2015,38(1):86-97. ［14］彭敦陆,王丽,霍欢.MapReduce环境下支持精确查询的嵌套式数据索引技术［J］.小型微型计算机系统,2015,36(2):220-226. ［15］杨广源,付旭平,黄燕.一种基于非线性降维和Procrustes分析的基因选取方法［J］.复旦大学学报:自然科学版,2009,48(3):338-347. 编辑索书志

[1]	张磊, 赵光岳, 肖超恩, 王建新. Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现[J]. 计算机工程, 2024, 50(9): 208-215.
[2]	杨太龙, 赵红朋, 张磊. 基于国产异构平台的奇异值分解法[J]. 计算机工程, 2024, 50(9): 216-225.
[3]	周小华, 周园春, 孟珍, 王学志. 大规模开放遥感影像地图渲染与缓存优化[J]. 计算机工程, 2024, 50(7): 227-239.
[4]	雷斗威, 何德彪, 罗敏, 彭聪. 基于AVX512的格密码高速并行实现[J]. 计算机工程, 2024, 50(2): 15-24.
[5]	单永航, 张希, 胡川, 丁涛军, 姚远. 基于集成学习的交通事故严重程度预测研究与应用[J]. 计算机工程, 2024, 50(2): 33-42.
[6]	王新迪, 杨夙, 张思源, 罗午阳, 李杰, 刘辉. 基于时空大数据与卫星图像的城市火灾风险预测[J]. 计算机工程, 2023, 49(6): 242-249.
[7]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[8]	夏立斌, 刘晓宇, 姜晓巍, 孙功星. 基于分布式数据集的并行计算框架内存优化方法[J]. 计算机工程, 2023, 49(4): 43-51.
[9]	房俊, 薛晓东, 周云亮. 基于深度生成模型的聚合查询区间估计方法[J]. 计算机工程, 2023, 49(11): 284-292, 301.
[10]	钱龙, 赵静, 韩京宇, 毛毅. 基于标签相关性的K近邻多标签学习[J]. 计算机工程, 2022, 48(6): 73-78,88.
[11]	刘子巍, 骆曦, 李克, 陈富强. 基于k近邻的多尺度超球卷积神经网络学习[J]. 计算机工程, 2022, 48(11): 111-119.
[12]	黄瑞, 金光浩, 李磊, 姜文超, 宋庆增. 轻量化神经网络加速器的设计与实现[J]. 计算机工程, 2021, 47(9): 185-190,196.
[13]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[14]	易培淮, 李卫东, 林韬, 邹佳恒, 邓子艳, 刘言. GPU在缪子快速模拟中的应用[J]. 计算机工程, 2021, 47(8): 100-108.
[15]	佘鑫, 何震瀛. 复杂属性条件下基于Spark的clique社区搜索算法[J]. 计算机工程, 2021, 47(12): 54-61,70.

选择文件类型/文献管理软件名称

选择包含的内容

基于Hadoop的微阵列数据两阶段并行K近邻基因提取

Micro-array Data Two-stage Parallel K Nearest Neighbor Gene Extraction Based on Hadoop

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Hadoop的微阵列数据两阶段并行K近邻基因提取

Micro-array Data Two-stage Parallel K Nearest Neighbor Gene Extraction Based on Hadoop

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价