文本分类中基于K-Sprinkling的特征提取方法

doi:10.3969/j.issn.1000-3428.2017.12.027

计算机工程

文本分类中基于K-Sprinkling的特征提取方法

李惠富,陆光,景维鹏

(东北林业大学信息与计算机工程学院,哈尔滨 150040)

收稿日期:2017-04-10 出版日期:2017-12-15 发布日期:2017-12-15
作者简介:李惠富(1992—),男,硕士研究生,主研方向为数据挖掘、文本分类;陆光(通信作者)、景维鹏,副教授、博士。
基金资助:
黑龙江省自然科学基金(F201201);林业公益性行业科研专项(201504307)。

Feature Extraction Method Based on K-Sprinkling in Text Classification

LI Huifu,LU Guang,JING Weipeng

(College of Information and Computer Engineering,Northeast Forestry University,Harbin 150040,China)

Received:2017-04-10 Online:2017-12-15 Published:2017-12-15

摘要/Abstract

摘要： 传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响。为此,对样本的类别贡献问题进行研究。针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法。综合考虑样本紧密度和样本隶属度信息,利用Sprinkling方法的特点,将样本权值映射到语义空间中,实现对文本的分类。实验结果表明,K-Sprinkling方法比传统的Sprinkling方法在平衡样本分类上F1值提高了1.89%,在不平衡样本分类上F1值提高了3.30%,取得了较好的分类效果。

关键词: 特征提取, 样本隶属度, 样本紧密度, 潜在语义索引, 贡献度

Abstract: The traditional feature extraction methods are mainly focus to the role of the category on the characteristic word for text classification,which do not express the impact of the sample on the classification.In this paper,aiming at the problem that the contribution of the sample to the classis is not detected out from the Sprinkling,and the K-Sprinkling is proposed based on these detected sample tightness and sample membership.Then,by considering the Sprinkling advantages,the sample weights are mapped into the vector feature space to achieve the text classification through the potential semantic indexing method.The experimental results show that the K-Sprinkling method proposed in this paper can obtain better classification performance.It outperforms the traditional method by 1.89% on the balance sample,as well as 3.30% on the imbalance sample in terms of F1-score.

Key words: feature extraction, sample membership, sample tightness, Latent Semantic Indexing(LSI), contribution degree

中图分类号:

TP301.6

李惠富,陆光,景维鹏. 文本分类中基于K-Sprinkling的特征提取方法[J]. 计算机工程.

LI Huifu,LU Guang,JING Weipeng. Feature Extraction Method Based on K-Sprinkling in Text Classification[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2017/V43/I12/141

参考文献

参考文献［1］易树鸿,张为群.一种基于粗集的文本数据特征信息的挖掘方法［J］.计算机科学,2002,29(8):91-92. ［2］熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究［J］.计算机应用,2008,28(2):513-514. ［3］罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法［J］.计算机应用,2016,36(3):718-725. ［4］赵仲秋,季海峰,高隽,等.基于稀疏编码多尺度空间潜在语义分析的图像分类［J］.计算机学报,2014,37(6):1251-1260. ［5］ZHANG Wen,YOSHIDA T,TANG X.A Comparative Study of TF*IDF,LSI and Multi-words for Text Classification［J］.Expert Systems with Applications an International Journal,2011,38(3):2758-2765. ［6］卫威,王建民.一种大规模数据的快速潜在语义索引［J］.计算机工程,2009,35(15):35-37,40. ［7］季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术［J］.中国科学技术大学学报,2015,45(4):314-320. ［8］程玉胜,梁辉,王一宾,等.基于风险决策的文本语义分类算法［J］.计算机应用,2016,36(11):2963-2968. ［9］陈珂,柯文德,刘美,等.一种基于多类别信息的局部潜在语义分析算法研究［J］.南京邮电大学学报(自然科学版),2016,36(1):119-124. ［10］CHAKRABORTI S,LOTHIAN R,WIRATUNGA N,et al.Sprinkling:Supervised Latent Semantic Indexing［M］//LALMAS M,MACFARLANE A,LALMAS S R M,et al.Advances in Information Retrieval.Berlin,Germany:Springer,2006:510-514. ［11］HINGMIRE S,CHAKRABORTI S.Sprinkling Topics for Weakly Supervised Text Classification［C］//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.［S.l.］:Association for Computational Linguistics,2014:55-60. ［12］WANG Tinghua,LIU Fulai,YAN Shenhai.Learning Class-informed Exponential Kernel for Text Categorization［J］.Journal of Computational & Theoretical Nanoscience,2016,13(8):5103-5110. ［13］QIN Pengda,XU Weiran,GUO Jun.A Novel Negative Sampling Based on TFIDF for Learning Word Represen-tation［J］.Neurocomputing,2016,177:257-265. ［14］刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机［J］.计算机工程,2016,42(4):155-159. ［15］鞠哲,曹隽喆,顾宏.用于不平衡数据分类的模糊支持向量机算法［J］.大连理工大学学报,2016,56(5):525-531. ［16］邱云飞,刘世兴,魏海超,等.W-POS语言模型及其选择与匹配算法［J］.计算机应用,2015,35(8):2210-2214. ［17］甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取［J］.计算机研究与发展,2016,53(2):284-302. ［18］石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法［J］.计算机应用,2014,34(11):3279-3282. ［19］史庆伟,从世源.基于mRMR和LDA主题模型的文本分类研究［J］.计算机工程与应用,2016,52(5):127-133. 编辑金胡考

[1]	董红亮, 钮焱, 孙杨, 李军. 基于记忆胶囊与注意力的语音情感识别[J]. 计算机工程, 2025, 51(4): 169-177.
[2]	孙义康, 高建华. 基于卷积神经网络和长短期记忆的死代码检测方法[J]. 计算机工程, 2025, 51(2): 223-237.
[3]	许明, 屈泰澎, 姜彦吉. 改进YOLOv7在复杂场景下的交通标志检测算法[J]. 计算机工程, 2025, 51(2): 335-343.
[4]	张新波, 张雪英, 黄丽霞, 陈桂军. 基于半监督深度自编码网络的分类算法及应用[J]. 计算机工程, 2025, 51(1): 71-80.
[5]	赵俊涛, 李陶深, 卢志翔. 基于最优近邻的局部保持投影方法[J]. 计算机工程, 2024, 50(9): 161-168.
[6]	钱清, 龙永, 蒋忠远, 段春红, 王宏. 基于深度强化学习的自适应图像隐写算法[J]. 计算机工程, 2024, 50(8): 319-327.
[7]	胡庆. 多尺度融合与双输出U-Net网络的行人重识别[J]. 计算机工程, 2024, 50(6): 102-109.
[8]	梁松林, 林伟, 王珏, 杨庆. 面向后渗透攻击行为的网络恶意流量检测研究[J]. 计算机工程, 2024, 50(5): 128-138.
[9]	李振鲁, 黄威, 孙锴. 复杂环境下的轻量化道路目标识别算法研究[J]. 计算机工程, 2024, 50(4): 219-227.
[10]	袁文涛, 卫文韬, 高德民. 融合注意力机制的多视图卷积手势识别研究[J]. 计算机工程, 2024, 50(3): 208-215.
[11]	王文静, 范涛, 王国中, 赵海武. 基于SA-BPNN多模态融合的教学质量评价方法[J]. 计算机工程, 2024, 50(11): 390-398.
[12]	任义, 苏博, 袁帅. 教育领域下多维度特征命名实体识别方法[J]. 计算机工程, 2024, 50(10): 110-118.
[13]	马娜, 温廷新, 贾旭, 李晓会. 复杂光照条件下自适应的车脸重识别模型[J]. 计算机工程, 2023, 49(8): 275-282, 290.
[14]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[15]	宋羽凯, 谢江. 基于多任务学习的轻量级语音情感识别模型[J]. 计算机工程, 2023, 49(5): 122-128.

选择文件类型/文献管理软件名称

选择包含的内容

文本分类中基于K-Sprinkling的特征提取方法

Feature Extraction Method Based on K-Sprinkling in Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

文本分类中基于K-Sprinkling的特征提取方法

Feature Extraction Method Based on K-Sprinkling in Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价