作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

基于多特征与多分类器融合的PPIE方法

王健,刘敏捷,林鸿飞   

  1. (大连理工大学计算机科学与技术学院,辽宁 大连 116024)
  • 收稿日期:2014-11-05 出版日期:2015-11-15 发布日期:2015-11-13
  • 作者简介:王健(1967-),女,副教授、博士、CCF高级会员,主研方向:信息检索,文本挖掘;刘敏捷,硕士研究生;林鸿飞,教授、博士、博士生导师。
  • 基金资助:
    国家自然科学基金资助项目(61340020)。

Protein-protein Interaction Extraction Method Based on Multiple Features and Multiple Classifiers Fusion

WANG Jian,LIU Minjie,LIN Hongfei   

  1. (School of Computer Science and Technology,Dalian University of Technology,Dalian 116024,China)
  • Received:2014-11-05 Online:2015-11-15 Published:2015-11-13

摘要: 从生物医学文献中自动地抽取蛋白质相互作用(PPI)关系是文本挖掘的一项重要任务。考虑到特征和分类器的选择对于PPI任务的重要性,提出一种基于丰富特征和多分类器融合的蛋白质关系抽取方法。选取15种词法、句法及语义特征,融合3种分类器,采用文档级别 的10倍交叉验证方法,在5个公开的PPI基准语料上进行评估实验,结果表明,该方法在AIMed语料上取得的F值和AUC值分别为63.7%和87.8%,具有良好的抽取性能。

关键词: 蛋白质相互作用关系抽取, 丰富特征, 支持向量机, 最大熵, 图核

Abstract: Automatically extracting Protein-protein Interaction(PPI) from biomedical literature is a significant task in text mining.Considering the choice of features and the selection of classifier is of great importance for Protein-protein Interaction Extraction(PPIE) task,this paper proposes a method to combine various features and multiple classifiers.Fifteen lexical,syntactic and semantic features,three kinds of classifiers and the standard ten-fold document level cross-validation evaluation method are used to evaluate on the five public PPI corpuses,and results show that the method achieves the preferable F-score(63.7%) and AUC-score(87.8%) on the AIMed corpus which is on the top of the PPI extraction task,and it has better extraction performance.

Key words: Protein-protein Interaction Extraction(PPIE), rich features, Support Vector Machine(SVM), maximum entropy, graph kernel

中图分类号: