基于文本分类TFIDF方法的改进与应用

doi:10.3969/j.issn.1000-3428.2006.19.028

计算机工程 ›› 2006, Vol. 32 ›› Issue (19): 76-78. doi: 10.3969/j.issn.1000-3428.2006.19.028

基于文本分类TFIDF方法的改进与应用

张玉芳1，彭时名1，吕佳2

(1. 重庆大学计算机学院，重庆 400045；2. 重庆师范大学数学与计算机科学学院，重庆 400047)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2006-10-05 发布日期:2006-10-05

Improvement and Application of TFIDF Method Based on Text Classification

ZHANG Yufang1, PENG Shiming1, LV Jia2

(1. Department of Computer Science, Chongqing University, Chongqing 400045; 2. College of Mathematics and Computer Science, Chongqing Normal University, Chongqing 400047)

Received:1900-01-01 Revised:1900-01-01 Online:2006-10-05 Published:2006-10-05

摘要/Abstract

摘要： TFIDF是文档特征权值表示常用方法。该方法简单易行，但低估了在一个类中频繁出现的词条，该词条是能够代表这个类的文本特征的，应该赋予其较高的权重。通过修改TFIDF中IDF的表达式，来增加那些在一个类中频繁出现的词条的权重，用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法，实验表明了改进的策略是可行的。

关键词: 文本分类, 特征选择, TFIDF, 类别区分

Abstract: TFIDF is a kind of common methods used to measure the terms in a document. The method is easy but it undervalues these terms that frequently appear in the documents belonging to the same class, while those terms can represent the characteristic of the documents of this class, so higher weight is entrusted to them. The expression of IDF in TFIDF is modified to increase the weight of those terms mentioned, then is applied to the experiment to validate it. In the experiment, the improved TFIDF is used to select feature and genetic algorithm is used to train the classifier. The method is better than others and proves that the improved TFIDF method is feasible.

Key words: Text classification, Feature selection, TFIDF, Class discrimination

中图分类号:

TP393

张玉芳;彭时名;吕佳. 基于文本分类TFIDF方法的改进与应用[J]. 计算机工程, 2006, 32(19): 76-78.

ZHANG Yufang; PENG Shiming; LV Jia. Improvement and Application of TFIDF Method Based on Text Classification[J]. Computer Engineering, 2006, 32(19): 76-78.

http://www.ecice06.com/CN/Y2006/V32/I19/76

[1]	杨璇, 马建敏, 赵曼君. 基于邻域互信息的高维时序数据特征选择[J]. 计算机工程, 2023, 49(7): 135-142.
[2]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[3]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[4]	刘利, 张德生, 肖燕婷. 基于隶属度的模糊加权k近质心近邻算法[J]. 计算机工程, 2022, 48(7): 122-129.
[5]	艾成豪, 高建华, 黄子杰. 混合特征选择和集成学习驱动的代码异味检测[J]. 计算机工程, 2022, 48(7): 168-176,198.
[6]	范林歌, 武欣嵘, 童玮, 曾维军. 基于概率矩阵分解的不完整数据集特征选择方法[J]. 计算机工程, 2022, 48(6): 57-64.
[7]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[8]	张要, 马盈仓, 朱恒东, 李恒, 陈程. 结合流形学习与逻辑回归的多标签特征选择[J]. 计算机工程, 2022, 48(3): 90-99,106.
[9]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[10]	汪正凯, 沈东升, 王晨曦. 基于文本分类的Fisher Score快速多标记特征选择算法[J]. 计算机工程, 2022, 48(2): 113-124.
[11]	黄奕轩, 杜世强, 余瑶, 肖庆江, 宋金梅. 基于特征选择与鲁棒图学习的多视图聚类[J]. 计算机工程, 2022, 48(12): 95-103.
[12]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[13]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[14]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[15]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.

选择文件类型/文献管理软件名称

选择包含的内容

基于文本分类TFIDF方法的改进与应用

Improvement and Application of TFIDF Method Based on Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于文本分类TFIDF方法的改进与应用

Improvement and Application of TFIDF Method Based on Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价