作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (4): 73-75. doi: 10.3969/j.issn.1000-3428.2011.04.026

• 软件技术与数据库 • 上一篇    下一篇

基于BLAST的数据清洗与质量控制方案

刘 奇1,孟 珍1,刘 勇1,董 慧2,林小光1,杲艳平1,周园春1,黎建辉1   

  1. (1. 中国科学院计算机网络信息中心科学数据中心,北京100190;2. 中国科学院深圳仙湖植物园,深圳 518004)
  • 出版日期:2011-02-20 发布日期:2011-02-17
  • 作者简介:刘 奇(1984-),男,硕士,主研方向:海量数据分布式处理;孟 珍,工程师、硕士;刘 勇,硕士;董 慧,博士; 林小光,工程师、硕士;杲艳平,硕士;周园春,副研究员、博士;黎建辉,研究员、博士
  • 基金资助:
    中国科学院“十一五”重大专项基金资助项目“数据应用环境建设与服务”(O846061372, O846061108, O846061208)

Data Cleaning and Quality Control Scheme Based on BLAST

LIU Qi 1, MENG Zhen 1, LIU Yong 1, DONG Hui 2, LIN Xiao-guang 1, GAO Yan-ping 1, ZHOU Yuan-chun 1, LI Jian-hui 1   

  1. (1. Scientific Data Center, Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. Fairylake Botanical Garden, Chinese Academy of Sciences, Shenzhen 518004, China)
  • Online:2011-02-20 Published:2011-02-17

摘要: 研究基本局部比对搜索工具(BLAST)在陆地植物系统发育平台中的应用。数据清洗方面结合基于基因注释的数据抽提与基于BLAST的相似性比对抽提,提取过滤相关的序列信息,控制序列质量,并剔除原始基因注释错误的序列。自测序列质量控制方面结合基于blastn的打分比对和基于blastp的模板比对,报告序列整体质量,控制污染序列和假基因的入库。

关键词: 序列比对, 数据清洗, 基本局部比对搜索工具, 陆地植物系统发育平台

Abstract: This paper researches the application of Basic Local Alignment Search Tool(BLAST) in the Platform for Phylogenetic Analysis of Land Plant Platform(PALPP). In data cleaning, it uses the data extraction based on gene annotation and extraction based on BLAST similarity matching to filter the related sequence information, control the sequence quality and remove the original gene sequence annotation errors. In the quality control of self-sequence data, it uses the way of alignment scoring based on blastn and template matching based on blastp to report the overall quality of sequence, control the storage of the pollution sequences and pseudo genes.

Key words: sequence alignment, data cleaning, Basic Local Alignment Search Tool(BLAST), Phylogenetic Analysis of Land Plant Platform (PALPP)

中图分类号: