文本分类中基于K-Sprinkling的特征提取方法

doi:10.3969/j.issn.1000-3428.2017.12.027

计算机工程

文本分类中基于K-Sprinkling的特征提取方法

李惠富,陆光,景维鹏

(东北林业大学信息与计算机工程学院,哈尔滨 150040)

收稿日期:2017-04-10 出版日期:2017-12-15 发布日期:2017-12-15
作者简介:李惠富(1992—),男,硕士研究生,主研方向为数据挖掘、文本分类;陆光(通信作者)、景维鹏,副教授、博士。
基金资助:
黑龙江省自然科学基金(F201201);林业公益性行业科研专项(201504307)。

Feature Extraction Method Based on K-Sprinkling in Text Classification

LI Huifu,LU Guang,JING Weipeng

(College of Information and Computer Engineering,Northeast Forestry University,Harbin 150040,China)

Received:2017-04-10 Online:2017-12-15 Published:2017-12-15

摘要/Abstract

摘要： 传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响。为此,对样本的类别贡献问题进行研究。针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法。综合考虑样本紧密度和样本隶属度信息,利用Sprinkling方法的特点,将样本权值映射到语义空间中,实现对文本的分类。实验结果表明,K-Sprinkling方法比传统的Sprinkling方法在平衡样本分类上F1值提高了1.89%,在不平衡样本分类上F1值提高了3.30%,取得了较好的分类效果。

关键词: 特征提取, 样本隶属度, 样本紧密度, 潜在语义索引, 贡献度

Abstract: The traditional feature extraction methods are mainly focus to the role of the category on the characteristic word for text classification,which do not express the impact of the sample on the classification.In this paper,aiming at the problem that the contribution of the sample to the classis is not detected out from the Sprinkling,and the K-Sprinkling is proposed based on these detected sample tightness and sample membership.Then,by considering the Sprinkling advantages,the sample weights are mapped into the vector feature space to achieve the text classification through the potential semantic indexing method.The experimental results show that the K-Sprinkling method proposed in this paper can obtain better classification performance.It outperforms the traditional method by 1.89% on the balance sample,as well as 3.30% on the imbalance sample in terms of F1-score.

Key words: feature extraction, sample membership, sample tightness, Latent Semantic Indexing(LSI), contribution degree

中图分类号:

TP301.6

李惠富,陆光,景维鹏. 文本分类中基于K-Sprinkling的特征提取方法[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2017.12.027.

LI Huifu,LU Guang,JING Weipeng. Feature Extraction Method Based on K-Sprinkling in Text Classification[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2017.12.027.

http://www.ecice06.com/CN/Y2017/V43/I12/141

参考文献

参考文献［1］易树鸿,张为群.一种基于粗集的文本数据特征信息的挖掘方法［J］.计算机科学,2002,29(8):91-92. ［2］熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究［J］.计算机应用,2008,28(2):513-514. ［3］罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法［J］.计算机应用,2016,36(3):718-725. ［4］赵仲秋,季海峰,高隽,等.基于稀疏编码多尺度空间潜在语义分析的图像分类［J］.计算机学报,2014,37(6):1251-1260. ［5］ZHANG Wen,YOSHIDA T,TANG X.A Comparative Study of TF*IDF,LSI and Multi-words for Text Classification［J］.Expert Systems with Applications an International Journal,2011,38(3):2758-2765. ［6］卫威,王建民.一种大规模数据的快速潜在语义索引［J］.计算机工程,2009,35(15):35-37,40. ［7］季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术［J］.中国科学技术大学学报,2015,45(4):314-320. ［8］程玉胜,梁辉,王一宾,等.基于风险决策的文本语义分类算法［J］.计算机应用,2016,36(11):2963-2968. ［9］陈珂,柯文德,刘美,等.一种基于多类别信息的局部潜在语义分析算法研究［J］.南京邮电大学学报(自然科学版),2016,36(1):119-124. ［10］CHAKRABORTI S,LOTHIAN R,WIRATUNGA N,et al.Sprinkling:Supervised Latent Semantic Indexing［M］//LALMAS M,MACFARLANE A,LALMAS S R M,et al.Advances in Information Retrieval.Berlin,Germany:Springer,2006:510-514. ［11］HINGMIRE S,CHAKRABORTI S.Sprinkling Topics for Weakly Supervised Text Classification［C］//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.［S.l.］:Association for Computational Linguistics,2014:55-60. ［12］WANG Tinghua,LIU Fulai,YAN Shenhai.Learning Class-informed Exponential Kernel for Text Categorization［J］.Journal of Computational & Theoretical Nanoscience,2016,13(8):5103-5110. ［13］QIN Pengda,XU Weiran,GUO Jun.A Novel Negative Sampling Based on TFIDF for Learning Word Represen-tation［J］.Neurocomputing,2016,177:257-265. ［14］刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机［J］.计算机工程,2016,42(4):155-159. ［15］鞠哲,曹隽喆,顾宏.用于不平衡数据分类的模糊支持向量机算法［J］.大连理工大学学报,2016,56(5):525-531. ［16］邱云飞,刘世兴,魏海超,等.W-POS语言模型及其选择与匹配算法［J］.计算机应用,2015,35(8):2210-2214. ［17］甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取［J］.计算机研究与发展,2016,53(2):284-302. ［18］石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法［J］.计算机应用,2014,34(11):3279-3282. ［19］史庆伟,从世源.基于mRMR和LDA主题模型的文本分类研究［J］.计算机工程与应用,2016,52(5):127-133. 编辑金胡考

[1]	马娜, 温廷新, 贾旭, 李晓会. 复杂光照条件下自适应的车脸重识别模型[J]. 计算机工程, 2023, 49(8): 275-282, 290.
[2]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[3]	宋羽凯, 谢江. 基于多任务学习的轻量级语音情感识别模型[J]. 计算机工程, 2023, 49(5): 122-128.
[4]	关日鹏, 况立群, 焦世超, 熊风光, 韩燮. 多模态特征融合与词嵌入驱动的三维检索方法[J]. 计算机工程, 2023, 49(4): 101-107,113.
[5]	李培育, 张雅丽. 基于改进SRGAN模型的人脸图像超分辨率重建[J]. 计算机工程, 2023, 49(4): 199-205.
[6]	耿磊, 傅洪亮, 陶华伟, 卢远, 郭歆莹, 赵力. 基于动态卷积递归神经网络的语音情感识别[J]. 计算机工程, 2023, 49(4): 125-130,137.
[7]	何悦, 陈广胜, 景维鹏, 徐泽堃. 基于深度多相似性哈希方法的遥感图像检索[J]. 计算机工程, 2023, 49(2): 206-212.
[8]	高庆吉, 李天昊, 邢志伟, 刘佩佩. 基于区块特征融合的点云语义分割方法[J]. 计算机工程, 2022, 48(9): 37-44,54.
[9]	闫静, 张雪英, 李凤莲, 陈桂军, 黄丽霞. 结合栈式监督AE与可变加权ELM的回归预测模型[J]. 计算机工程, 2022, 48(8): 62-69,76.
[10]	李晨, 侯进, 李金彪, 陈子锐. 基于注意力与残差级联的红外与可见光图像融合方法[J]. 计算机工程, 2022, 48(7): 234-240.
[11]	崔云轩, 刘桂华, 余东应, 郭中远, 张文凯. 点线特征融合的激光雷达单目惯导SLAM系统[J]. 计算机工程, 2022, 48(7): 254-263.
[12]	李柯泉, 陈燕, 刘佳晨, 牟向伟. 基于深度学习的目标检测算法综述[J]. 计算机工程, 2022, 48(7): 1-12.
[13]	汪荣贵, 李懂, 杨娟, 薛丽霞. 基于跨域特征关联与聚类的无监督行人重识别[J]. 计算机工程, 2022, 48(3): 229-235,243.
[14]	谢斌红, 秦耀龙, 张英俊. 基于学习主动中心轮廓模型的场景文本检测[J]. 计算机工程, 2022, 48(3): 244-252,262.
[15]	孙同晶, 闫志明, 范军, 张豪. 基于曲率和的主动声呐干涉条纹特征表征方法[J]. 计算机工程, 2022, 48(11): 49-54.

选择文件类型/文献管理软件名称

选择包含的内容

文本分类中基于K-Sprinkling的特征提取方法

Feature Extraction Method Based on K-Sprinkling in Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

文本分类中基于K-Sprinkling的特征提取方法

Feature Extraction Method Based on K-Sprinkling in Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价