一种基于近邻元分析的文本分类算法

doi:10.3969/j.issn.1000-3428.2012.15.038

计算机工程 ›› 2012, Vol. 38 ›› Issue (15): 139-141.

一种基于近邻元分析的文本分类算法

刘丛山，李祥宝，杨煜普

(上海交通大学自动化系系统控制与信息处理教育部重点实验室，上海 200240)

收稿日期:2011-09-29 出版日期:2012-08-05 发布日期:2012-08-05
作者简介:刘丛山(1986－)，男，硕士研究生，主研方向：机器学习；李祥宝，博士研究生；杨煜普，教授、博士
基金资助:
国家“863”计划基金资助项目“云制造服务平台关键技术”(2011AA040605)

Text Classification Algorithm Based on Neighborhood Component Analysis

LIU Cong-shan, LI Xiang-bao, YANG Yu-pu

(Key Laboratory of System Control and Information Processing, Ministry of Education, Department of Automation, Shanghai Jiaotong University, Shanghai 200240, China)

Received:2011-09-29 Online:2012-08-05 Published:2012-08-05

摘要/Abstract

摘要： 在近邻元分析(NCA)算法的基础上，提出K近邻元分析分类算法K-NCA。利用NCA算法完成对训练样本集的距离测度学习和降维，定义类偏斜因子，引入K近邻思想，得到测试样本的类条件概率估计，并通过该概率进行类别判定，实现文本分类器功能。实验结果表明，K-NCA算法的分类效果较好。

关键词: 近邻元分析, 距离测度学习, 降维, K近邻, 文本分类

Abstract: This paper proposes a novel algorithm named K-NCA based on Neighborhood Component Analysis(NCA). It uses NCA to learn a Mahalanobis distance measure and reduces the dimension of the input dataset. The algorithm defines a class imbalance factor and introduces K Nearest Neighbor(KNN) to compute the test sample’s class-conditional probability estimation. The sample’s class label is decided by this probability. A text classifier is designed to accomplish the algorithm. Experimental results show that K-NCA algorithm can improve the accuracy of text classification.

Key words: Neighborhood Component Analysis(NCA), distance metric learning, dimension reduction, K Nearest Neighbor(KNN), text classification

中图分类号:

TP18

刘丛山, 李祥宝, 杨煜普. 一种基于近邻元分析的文本分类算法[J]. 计算机工程, 2012, 38(15): 139-141.

LIU Cong-Shan, LI Xiang-Bao, YANG Yu-Pu. Text Classification Algorithm Based on Neighborhood Component Analysis[J]. Computer Engineering, 2012, 38(15): 139-141.

https://www.ecice06.com/CN/Y2012/V38/I15/139

[1]	赵俊涛, 李陶深, 卢志翔. 基于最优近邻的局部保持投影方法[J]. 计算机工程, 2024, 50(9): 161-168.
[2]	钱来, 赵卫伟. 基于对比学习和注意力机制的文本分类方法[J]. 计算机工程, 2024, 50(7): 104-111.
[3]	游奔, 李晓红, 姚锦, 冯绍杰. 基于多粒度图与注意力机制的半监督短文本分类[J]. 计算机工程, 2024, 50(5): 83-90.
[4]	单永航, 张希, 胡川, 丁涛军, 姚远. 基于集成学习的交通事故严重程度预测研究与应用[J]. 计算机工程, 2024, 50(2): 33-42.
[5]	陈君航, 杨祖元, 刘名扬, 李陵江. 基于正交约束的广义可分离非负矩阵分解算法[J]. 计算机工程, 2023, 49(8): 46-53.
[6]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[7]	霍跃华, 赵法起. 基于Stacking与多特征融合的加密恶意流量检测[J]. 计算机工程, 2023, 49(5): 165-172,180.
[8]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[9]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[10]	古楠楠. 针对标签噪声数据的自步半监督降维[J]. 计算机工程, 2023, 49(11): 131-142.
[11]	郑秋梅, 徐林康, 王风华, 林超. 基于改进自注意力机制的金字塔场景解析网络[J]. 计算机工程, 2023, 49(1): 242-249.
[12]	钱龙, 赵静, 韩京宇, 毛毅. 基于标签相关性的K近邻多标签学习[J]. 计算机工程, 2022, 48(6): 73-78,88.
[13]	李晋国, 焦旭斌. 雾计算环境下入侵检测模型研究[J]. 计算机工程, 2022, 48(5): 43-52.
[14]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[15]	张恒, 陈晓红, 蓝宇翔, 李舜酩. 基于深度学习的监督型典型相关分析[J]. 计算机工程, 2022, 48(5): 222-228.

选择文件类型/文献管理软件名称

选择包含的内容

一种基于近邻元分析的文本分类算法

Text Classification Algorithm Based on Neighborhood Component Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种基于近邻元分析的文本分类算法

Text Classification Algorithm Based on Neighborhood Component Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价