作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (21): 46-48. doi: 10.3969/j.issn.1000-3428.2011.21.016

• 软件技术与数据库 • 上一篇    下一篇

基于LDA主题模型的软件缺陷分派方法

黄小亮1,郁抒思1,关佶红2   

  1. (1. 复旦大学计算机科学技术学院,上海 200433;2. 同济大学计算机科学与技术系,上海 201804)
  • 收稿日期:2011-04-26 出版日期:2011-11-05 发布日期:2011-11-05
  • 作者简介:黄小亮(1985-),男,硕士研究生,主研方向:数据挖 掘,文本分类;郁抒思,博士研究生;关佶红,教授、博士生导师
  • 基金资助:
    国家自然科学基金资助项目(60873040)

Software Bug Triage Method Based on LDA Topic Model

HUANG Xiao-liang  1, YU Shu-si v  1, GUAN Ji-hong   2   

  1. (1. School of Computer Science, Fudan University, Shanghai 200433, China; 2. Department of Computer Science, Tongji University, Shanghai 201804, China)
  • Received:2011-04-26 Online:2011-11-05 Published:2011-11-05

摘要: 传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。

关键词: 软件缺陷分派, 隐含狄利克雷分配模型, 马尔可夫链蒙特卡洛方法, 吉布斯采样, 文本分类, 向量空间模型

Abstract: In traditional Vector Space Model(VSM) based software bug triage, the high dimensionality feature space are sparse and noise containing. Inspired by these characteristics, this paper proposes a software bug triage method based on Latent Dirichlet Allocation(LDA) topic model. It maps the bug report to the topic space, and makes triage in the new low dimension topic space. Experimental results show that, the method works well on bug triaging, with SVM and KNN classifiers.

Key words: software bug triage, Latent Dirichlet Allocation(LDA) model, Markov-Chain Monte Carlo(MCMC) method, Gibbs sampling, text classification, Vector Space Model(VSM)

中图分类号: