一个对不带类别标记文本进行分类的方法

doi:10.3969/j.issn.1000-3428.2007.12.034

计算机工程 ›› 2007, Vol. 33 ›› Issue (12): 96-98. doi: 10.3969/j.issn.1000-3428.2007.12.034

一个对不带类别标记文本进行分类的方法

蒋志方1，祝翠玲2，吴强1

(1. 山东大学计算机科学与技术学院，济南 250061；2. 山东经济学院信息管理学院，济南 250014)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-06-20 发布日期:2007-06-20

Method of Unlabeled Texts Classification

JIANG Zhifang1, ZHU Cuiling2, WU Qiang1

(1. School of Computer Science and Technology, Shandong University, Jinan 250061; 2. College of Information Management, Shandong Economic University, Jinan 250014)

Received:1900-01-01 Revised:1900-01-01 Online:2007-06-20 Published:2007-06-20

摘要/Abstract

摘要： 利用无监督聚类方法和朴素贝叶斯分类的特点，把UC获得的预分类结果作为朴素贝叶斯分类器的训练样本，将处在聚类结果中类属模糊区域的文本交给训练好的朴素贝叶斯分类器再进行分类，实现了对不带任何类别标记文本的准确分类，可得到较准确的分类结果。

关键词: 文本分类, 无监督文本聚类, 朴素贝叶斯分类, 欧氏距离

Abstract: Using the specialty of the unsupervised clustering and the naïve Bayes classification, the paper gives a method that gains results of the text clusters and takes some of results as the training samples of the naïve Bayes classifier and let the trained naïve Bayes classifier reclassify those texts in illegible area of the clustering results. Consequently the method can classify the unlabeled text accurately and also can gain a better result of classification.

Key words: Text classification, Unsupervised text clustering, Naï, ve Bayes classification, Euclid distance

中图分类号:

TP181

蒋志方;祝翠玲;吴强. 一个对不带类别标记文本进行分类的方法[J]. 计算机工程, 2007, 33(12): 96-98.

JIANG Zhifang; ZHU Cuiling; WU Qiang. Method of Unlabeled Texts Classification[J]. Computer Engineering, 2007, 33(12): 96-98.

http://www.ecice06.com/CN/Y2007/V33/I12/96

[1]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[2]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[3]	赵秉宇, 王柳生, 张美玲, 郑东. 针对重用掩码AES算法的随机明文碰撞攻击[J]. 计算机工程, 2022, 48(6): 139-145,153.
[4]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[5]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[6]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[7]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[8]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[9]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.
[10]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.
[11]	段丹丹, 唐加山, 温勇, 袁克海. 基于BERT模型的中文短文本分类算法[J]. 计算机工程, 2021, 47(1): 79-86.
[12]	丁辰晖, 夏鸿斌, 刘渊. 融合知识图谱与注意力机制的短文本分类模型[J]. 计算机工程, 2021, 47(1): 94-100.
[13]	方瑞, 于俊洋, 董李锋. 基于特征矩阵构造与BP神经网络的垃圾文本过滤模型[J]. 计算机工程, 2020, 46(8): 271-276.
[14]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[15]	李志, 宋礼鹏. 基于用户窗口行为的内部威胁检测研究[J]. 计算机工程, 2020, 46(4): 135-142,150.

选择文件类型/文献管理软件名称

选择包含的内容

一个对不带类别标记文本进行分类的方法

Method of Unlabeled Texts Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一个对不带类别标记文本进行分类的方法

Method of Unlabeled Texts Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价