基于LSI的代码-文档可追溯关联挖掘研究

doi:10.3969/j.issn.1000-3428.2011.08.012

计算机工程 ›› 2011, Vol. 37 ›› Issue (8): 34-36. doi: 10.3969/j.issn.1000-3428.2011.08.012

基于LSI的代码-文档可追溯关联挖掘研究

杨雪敏，张毅坤，崔颖安，张保卫，夏辉

(西安理工大学计算机科学与工程学院，西安 710048)

出版日期:2011-04-20 发布日期:2012-10-31
作者简介:杨雪敏(1985－)，女，硕士研究生，主研方向：软件测试；张毅坤，教授、博士；崔颖安，讲师、博士；张保卫，工程师、硕士；夏辉，讲师、硕士
基金资助:
陕西省自然科学基金资助项目(2009JM8003-1)；陕西省教育厅专项基金资助项目(09JK679)

Research on Code and Documentation Traceability Association Mining Based on LSI

YANG Xue-min, ZHANG Yi-kun, CUI Ying-an, ZHANG Bao-wei, XIA Hui

(School of Computer Science and Engineering, Xi’an University of Technology, Xi’an 710048, China)

Online:2011-04-20 Published:2012-10-31

摘要/Abstract

摘要： 软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此，提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法，该方法是对向量空间模型的改进，通过分析文本间隐含的语义结构来确定关联度，而不依赖于词项的匹配。实验结果表明，该方法不依赖于代码和文档预先定义的同义词库和知识库，并能一定程度上提高查全率和查准率。

关键词: 软件维护, 可追溯关联挖掘, 隐含语义索引, 信息检索, 跨语言信息检索

Abstract: Traceability link recovery among software process products is very important in many fields, such as software maintenance, as well as requirement trac. Based on Latent Semantic Indexing(LSI), the traceability recovery information can be extracted automatically from program source code and the related Chinese documentation. The obvious advantage is that the presented method does not rely on the pre-defined thesaurus and knowledge for the code and documentation, and to some extent, it improves the recall and precision.

Key words: software maintenance, traceability association mining, Latent Semantic Indexing(LSI), Information Retrieval(IR), Cross-Language Information Retrieval(CLIR)

中图分类号:

TP311

杨雪敏, 张毅坤, 崔颖安, 张保卫, 夏辉. 基于LSI的代码-文档可追溯关联挖掘研究[J]. 计算机工程, 2011, 37(8): 34-36.

YANG Xue-Min, ZHANG Yi-Kun, CUI Ying-An, ZHANG Bao-Wei, JIA Hui. Research on Code and Documentation Traceability Association Mining Based on LSI[J]. Computer Engineering, 2011, 37(8): 34-36.

http://www.ecice06.com/CN/Y2011/V37/I8/34

[1]	李佩, 陈乔松, 陈鹏昌, 邓欣, 王进, 朴昌浩. 基于模态特异及模态共享特征信息的多模态细粒度检索[J]. 计算机工程, 2022, 48(11): 62-68,76.
[2]	王曙燕, 张一权, 孙家泽. 基于BP神经网络的代码坏味检测[J]. 计算机工程, 2020, 46(10): 216-222,230.
[3]	高军,黄献策. 基于Hadoop平台的相关性权重算法设计与实现[J]. 计算机工程, 2019, 45(3): 26-31.
[4]	张倩倩,田学东,杨芳,李新福. 基于数学文本和表达式转换的融合检索模型[J]. 计算机工程, 2019, 45(3): 175-181,187.
[5]	塞麦提·麦麦提敏, 司马义·阿不都热依木. 维吾尔语停用词抽取方法研究[J]. 计算机工程, 2019, 45(10): 288-292,300.
[6]	王莹,罗准辰,于洋. 基于排序学习模型的微博多样性检索问题研究[J]. 计算机工程, 2017, 43(11): 152-160.
[7]	覃华峥,胡忠顺,阳德青,肖仰华. 基于类别模板挖掘的百科相关实体构建[J]. 计算机工程, 2016, 42(9): 180-185,191.
[8]	毋光先,刘年义,刘博雅. 基于LWE的BGN类CPA安全加密方案设计与应用[J]. 计算机工程, 2016, 42(12): 118-123.
[9]	姬鹏飞,李远刚,卢盛祺,戴开宇. 基于语义Web的旅游路线个性化定制系统[J]. 计算机工程, 2016, 42(10): 308-317.
[10]	邓晓军,满君丰,欧阳旻. 基于K武装决斗土匪问题的排序器在线评估算法[J]. 计算机工程, 2015, 41(9): 271-275.
[11]	李金忠,杨威,夏洁武,曾小荟,孙凌宇. 基于Hooke & Jeeves模式搜索的排序学习方法[J]. 计算机工程, 2015, 41(7): 215-218.
[12]	许家铭，李晓东，金键，马盈. 一种高效的多模式字符串匹配算法[J]. 计算机工程, 2014, 40(3): 315-320.
[13]	张旭东，孙志明，刘亚宁，单栋栋，闫宏飞. 基于64位体系结构的倒排索引压缩算法[J]. 计算机工程, 2014, 40(2): 71-76.
[14]	朱菁华,王晓玲. 基于扩展查询表达式的XML 关键字查询[J]. 计算机工程, 2014, 40(10): 25-31.
[15]	熊忠阳，蔺显强，张玉芳，牙漫. 结合网页结构与文本特征的正文提取方法[J]. 计算机工程, 2013, 39(12): 200-203,210.

选择文件类型/文献管理软件名称

选择包含的内容

基于LSI的代码-文档可追溯关联挖掘研究

Research on Code and Documentation Traceability Association Mining Based on LSI

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于LSI的代码-文档可追溯关联挖掘研究

Research on Code and Documentation Traceability Association Mining Based on LSI

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价