基于频繁项集的多标签文本分类算法

doi:10.3969/j.issn.1000-3428.2010.15.029

计算机工程 ›› 2010, Vol. 36 ›› Issue (15): 83-85. doi: 10.3969/j.issn.1000-3428.2010.15.029

基于频繁项集的多标签文本分类算法

吕小勇，石洪波

(山西财经大学信息管理学院，太原 030006)

出版日期:2010-08-05 发布日期:2010-08-25
作者简介:吕小勇(1982－)，男，硕士研究生，主研方向：机器学习，数据挖掘；石洪波，教授、博士
基金资助:
国家自然科学基金资助项目(60873100)；山西省自然科学基金资助项目(2009011017-4)

Multi-label Text Classification Algorithm Based on Frequent Item Sets

LV Xiao-yong, SHI Hong-bo

(Information Management Institute, Shanxi University of Finance & Economics, Taiyuan 030006)

Online:2010-08-05 Published:2010-08-25

摘要/Abstract

摘要： 针对多标签文本分类问题，提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集，同时为每个类计算类标准向量和相似度阈值，如果文本与类标准向量的相似度大于相应阈值则归到相应的类别，在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明，该算法有较高的分类性能。

关键词: 多标签, 相似度, 频繁项集, 关联规则

Abstract: Aiming at the problem of multi-label text classification, this paper proposes a multi-label text classification algorithm based on frequent item sets. It uses FP-growth algorithm for mining frequent item sets between labels, calculates prototype vector and similarity threshold for each class, if the similarity between prototype vector and text are greater than the corresponding threshold, then classifies the text into corresponding category. After classifying, the association rules between the class are utilized to verify the result of classification. Experimental results show that the algorithm has a higher ability of classification performance.

Key words: multi-label, similarity, frequent item se, association rules

中图分类号:

TP181

吕小勇, 石洪波. 基于频繁项集的多标签文本分类算法[J]. 计算机工程, 2010, 36(15): 83-85.

LV Xiao-Yong, DAN Hong-Bei. Multi-label Text Classification Algorithm Based on Frequent Item Sets[J]. Computer Engineering, 2010, 36(15): 83-85.

http://www.ecice06.com/CN/Y2010/V36/I15/83

[1]	杨祖赫, 黎智辉, 唐云祁, 晏于文, 宋华青. 结合语义与图像信息的行人属性识别算法[J]. 计算机工程, 2023, 49(8): 215-222, 231.
[2]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[3]	杨红菊, 靳新宇. 一个实体关系与事件抽取的通用模型[J]. 计算机工程, 2023, 49(2): 143-149.
[4]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.
[5]	杨振宇, 王磊, 马博, 杨雅婷, 董瑞, 艾孜麦提·艾瓦尼尔, 王震. 一种针对维汉的跨语言远程监督方法[J]. 计算机工程, 2023, 49(2): 271-278.
[6]	潘金凤, 尹丽菊, 高明亮, 邹国峰. 压缩感知观测信号的低秩稀疏分解[J]. 计算机工程, 2022, 48(8): 234-239.
[7]	钱龙, 赵静, 韩京宇, 毛毅. 基于标签相关性的K近邻多标签学习[J]. 计算机工程, 2022, 48(6): 73-78,88.
[8]	朱旭东, 熊贇. 基于多层次注意力与图模型的图像多标签分类算法[J]. 计算机工程, 2022, 48(4): 173-178,190.
[9]	金雨澄, 王清钦, 高剑, 苗仲辰, 林越峰, 项雅丽, 熊贇. 基于图深度学习的金融文本多标签分类算法[J]. 计算机工程, 2022, 48(4): 16-21.
[10]	张要, 马盈仓, 朱恒东, 李恒, 陈程. 结合流形学习与逻辑回归的多标签特征选择[J]. 计算机工程, 2022, 48(3): 90-99,106.
[11]	赵欣灿, 朱云, 毛伊敏. 基于MapReduce的高维数据频繁项集挖掘[J]. 计算机工程, 2022, 48(3): 81-89.
[12]	周瑞朋, 秦进. 基于最佳子策略记忆的强化探索策略[J]. 计算机工程, 2022, 48(2): 106-112.
[13]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[14]	贺煜航, 刘棪, 陈刚. 基于自适应图卷积网络的心电图多标签分类模型[J]. 计算机工程, 2022, 48(12): 261-269.
[15]	王治和, 曹旭琰, 杜辉. 一种优化初始点与自适应半径的密度聚类算法[J]. 计算机工程, 2022, 48(1): 51-59.

选择文件类型/文献管理软件名称

选择包含的内容

基于频繁项集的多标签文本分类算法

Multi-label Text Classification Algorithm Based on Frequent Item Sets

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于频繁项集的多标签文本分类算法

Multi-label Text Classification Algorithm Based on Frequent Item Sets

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价