基于LSI和SVM的文本分类研究

doi:10.3969/j.issn.1000-3428.2007.15.077

计算机工程 ›› 2007, Vol. 33 ›› Issue (15): 217-219. doi: 10.3969/j.issn.1000-3428.2007.15.077

基于LSI和SVM的文本分类研究

刘美茹

（哈尔滨铁道职业技术学院计算机教研室，哈尔滨 150086）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-08-05 发布日期:2007-08-05

Research on Text Classification Based on LSI and SVM

LIU Mei-ru

(Staff Room of Computer, Harbin Railway Technical College, Harbin 150086)

Received:1900-01-01 Revised:1900-01-01 Online:2007-08-05 Published:2007-08-05

摘要/Abstract

摘要： 文本分类技术是文本数据挖掘的基础和核心，是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术，该文提出了利用潜在语义索引进行特征提取和降维，并结合支持向量机(SVM)算法进行多类分类，实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比，取得了更好的效果，在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。

关键词: 特征提取, 潜在语义索引, 支持向量机

Abstract: Text classification is the foundation and crucial problem of text data mining, it is an application based on the technology of natural language processing and machine learning. Feature extraction and categorization algorithm are the most crucial technologies for this problem. This paper proposes that latent semantic indexing (LSI) is used for feature extraction and dimensionality reduction, support vector machine(SVM) is used for text classification. The result shows that compared with the classifier based on vector space model combined SVM and the classifier based on LSI combined K-nearest neighbor (KNN), better performance is acheived. It shows that while the number of categories is small, and the categories are divided distinctly, the method can be used for practical application.

Key words: feature extraction, latent semantic index(LSI), support vector machine(SVM)

中图分类号:

TP391

刘美茹. 基于LSI和SVM的文本分类研究[J]. 计算机工程, 2007, 33(15): 217-219.

LIU Mei-ru. Research on Text Classification Based on LSI and SVM[J]. Computer Engineering, 2007, 33(15): 217-219.

http://www.ecice06.com/CN/Y2007/V33/I15/217

[1]	马娜, 温廷新, 贾旭, 李晓会. 复杂光照条件下自适应的车脸重识别模型[J]. 计算机工程, 2023, 49(8): 275-282, 290.
[2]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[3]	宋羽凯, 谢江. 基于多任务学习的轻量级语音情感识别模型[J]. 计算机工程, 2023, 49(5): 122-128.
[4]	关日鹏, 况立群, 焦世超, 熊风光, 韩燮. 多模态特征融合与词嵌入驱动的三维检索方法[J]. 计算机工程, 2023, 49(4): 101-107,113.
[5]	李培育, 张雅丽. 基于改进SRGAN模型的人脸图像超分辨率重建[J]. 计算机工程, 2023, 49(4): 199-205.
[6]	耿磊, 傅洪亮, 陶华伟, 卢远, 郭歆莹, 赵力. 基于动态卷积递归神经网络的语音情感识别[J]. 计算机工程, 2023, 49(4): 125-130,137.
[7]	何悦, 陈广胜, 景维鹏, 徐泽堃. 基于深度多相似性哈希方法的遥感图像检索[J]. 计算机工程, 2023, 49(2): 206-212.
[8]	高庆吉, 李天昊, 邢志伟, 刘佩佩. 基于区块特征融合的点云语义分割方法[J]. 计算机工程, 2022, 48(9): 37-44,54.
[9]	闫静, 张雪英, 李凤莲, 陈桂军, 黄丽霞. 结合栈式监督AE与可变加权ELM的回归预测模型[J]. 计算机工程, 2022, 48(8): 62-69,76.
[10]	李晨, 侯进, 李金彪, 陈子锐. 基于注意力与残差级联的红外与可见光图像融合方法[J]. 计算机工程, 2022, 48(7): 234-240.
[11]	崔云轩, 刘桂华, 余东应, 郭中远, 张文凯. 点线特征融合的激光雷达单目惯导SLAM系统[J]. 计算机工程, 2022, 48(7): 254-263.
[12]	李柯泉, 陈燕, 刘佳晨, 牟向伟. 基于深度学习的目标检测算法综述[J]. 计算机工程, 2022, 48(7): 1-12.
[13]	王志江, 秦品乐, 柴锐, 武峰, 程一彤, 史玥. 基于深度学习的牙齿嵌塞自动判别方法[J]. 计算机工程, 2022, 48(4): 307-313.
[14]	汪荣贵, 李懂, 杨娟, 薛丽霞. 基于跨域特征关联与聚类的无监督行人重识别[J]. 计算机工程, 2022, 48(3): 229-235,243.
[15]	谢斌红, 秦耀龙, 张英俊. 基于学习主动中心轮廓模型的场景文本检测[J]. 计算机工程, 2022, 48(3): 244-252,262.

选择文件类型/文献管理软件名称

选择包含的内容

基于LSI和SVM的文本分类研究

Research on Text Classification Based on LSI and SVM

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于LSI和SVM的文本分类研究

Research on Text Classification Based on LSI and SVM

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价