基于信息增益与信息熵的TFIDF算法

doi:10.3969/j.issn.1000-3428.2012.08.013

计算机工程 ›› 2012, Vol. 38 ›› Issue (08): 37-40.

基于信息增益与信息熵的TFIDF算法

李学明，李海瑞，薛亮，何光军

(重庆大学计算机学院，重庆 400044)

收稿日期:2011-07-11 出版日期:2012-04-20 发布日期:2012-04-20
作者简介:李学明(1967－)，男，副教授，主研方向：数据挖掘，网格计算；李海瑞、薛亮、何光军，硕士研究生
基金资助:
中央高校基本科研业务费专项基金资助项目(CDJXS111 80009)

TFIDF Algorithm Based on Information Gain and Information Entropy

LI Xue-ming, LI Hai-rui, XUE Liang, HE Guang-jun

(College of Computer Science, Chongqing University, Chongqing 400044, China)

Received:2011-07-11 Online:2012-04-20 Published:2012-04-20

摘要/Abstract

摘要： 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题，引入信息熵的概念，对基于信息增益的TFIDF算法(TFIDFIG)进行改进，提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明，与传统的TFIDF算法和TFIDFIG算法相比，TFIDFIGE算法的查准率和查全率较高。

关键词: 文本分类, 信息增益, 信息熵, TFIDF算法

Abstract: The classical Term Frequency and Inverse Documentation Frequency(TFIDF) algorithm neglects the proportion of distribution of terms in categories and between categories of the text collection. Aiming at this problem, this paper introduces the information entropy, and the TFIDF algorithm based on information gain(TFIDFIG) is improved. It proposes a TFIDF algorithm based on information gain and information entropy (TFIDFIGE). Experimental results show that the TFIDFIGE algorithm is more effective than the traditional algorithm, namely TFIDF, TFIDFIG, in terms of precision and recall.

Key words: text classification, information gain, information entropy, Term Frequency and Inverse Documentation Frequency(TFIDF)

中图分类号:

TP391.4

李学明, 李海瑞, 薛亮, 何光军. 基于信息增益与信息熵的TFIDF算法[J]. 计算机工程, 2012, 38(08): 37-40.

LI Hua-Meng, LI Hai-Rui, XUE Liang, HE Guang-Jun. TFIDF Algorithm Based on Information Gain and Information Entropy[J]. Computer Engineering, 2012, 38(08): 37-40.

https://www.ecice06.com/CN/Y2012/V38/I08/37

[1]	钱来, 赵卫伟. 基于对比学习和注意力机制的文本分类方法[J]. 计算机工程, 2024, 50(7): 104-111.
[2]	游奔, 李晓红, 姚锦, 冯绍杰. 基于多粒度图与注意力机制的半监督短文本分类[J]. 计算机工程, 2024, 50(5): 83-90.
[3]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[4]	陈何雄, 罗宇薇, 韦云凯, 郭威, 杭菲璐, 何映军, 杨宁. 基于联邦学习的SDN异常流量协同检测技术[J]. 计算机工程, 2023, 49(3): 168-176.
[5]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[6]	陈天宇, 楚程钱, 万思远, 万永菁, 孙静. 基于条件轻量级神经网络的视频入侵检测算法[J]. 计算机工程, 2023, 49(12): 152-160.
[7]	孙福禄, 王宇嘉, 刘子怡. 基于节点引力与鱼记忆的社区检测算法[J]. 计算机工程, 2022, 48(5): 104-111.
[8]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[9]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[10]	张晓明, 郑理欣, 王会勇. 基于图排序和最大信息增益的领域实体抽取方法[J]. 计算机工程, 2022, 48(12): 140-149.
[11]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[12]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[13]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[14]	朱映波, 赵阳洋, 王佩, 尹凯, 王振宇. 融合马尔科夫决策过程与信息熵的对话策略[J]. 计算机工程, 2021, 47(3): 284-290.
[15]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.

选择文件类型/文献管理软件名称

选择包含的内容

基于信息增益与信息熵的TFIDF算法

TFIDF Algorithm Based on Information Gain and Information Entropy

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于信息增益与信息熵的TFIDF算法

TFIDF Algorithm Based on Information Gain and Information Entropy

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价