哈萨克语文本分类系统的设计与实现

doi:10.3969/j.issn.1000-3428.2011.05.066

计算机工程 ›› 2011, Vol. 37 ›› Issue (5): 196-198. doi: 10.3969/j.issn.1000-3428.2011.05.066

哈萨克语文本分类系统的设计与实现

玛依来.哈帕尔，古丽拉.阿东别克

(新疆大学信息科学与工程学院，乌鲁木齐 830046)

出版日期:2011-03-05 发布日期:2012-10-31
作者简介:玛依来.哈帕尔(1985－)，女，硕士研究生，主研方向：自然语言处理，计算机软件；古丽拉.阿东别克，教授
基金资助:
国家自然科学基金资助项目“现代哈萨克语词级文本语料库构建技术研究”(60763005)；国家教育部、国家语委民族语言文字规范标准建设及信息化科研项目“基于语料库的哈萨克语词语标注规范研究”(MZ115-92)

Design and Implementation of Kazakh Text Categorization System

Mayra Hapar, Gulila Altenbek

(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Online:2011-03-05 Published:2012-10-31

摘要/Abstract

摘要：

利用K-最近距离算法对哈萨克语文本进行分类，通过统计词频信息和语言信息相结合的方法选择特征，实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频，还利用特征的集中度、分散度，经过训练和统计对每一类哈萨克语文本形成特征的权重向量，根据K-最近距离算法判断测试文本的所属类别，实验结果表明该方法可行。

关键词: 文本分类, K-最近距离, 集中度, 分散度

Abstract:

The K-nearest-neighbor algorithm is adopted in the classification of the Kazakh text, while in characters chosen, a method that integrates language information and statistical information from the training corpus is applied. The weight of these characters is computed from three parameters: word frequency, centralized degree, decentralized degree. After training, the vector space model of the Kazakh text categorization is got, and the Kazakh text through K-nearest-neighbor algorithm is classified. Experimental results show that this method is feasible.

Key words: text categorization, K-nearest-neighbor, centralized degree, decentralized degree

中图分类号:

TP18

玛依来.哈帕尔, 古丽拉.阿东别克. 哈萨克语文本分类系统的设计与实现[J]. 计算机工程, 2011, 37(5): 196-198.

MA Yi-Lai-?Ha-Mo-Er, GU Li-La-?A-Dong-Bie-Ke. Design and Implementation of Kazakh Text Categorization System[J]. Computer Engineering, 2011, 37(5): 196-198.

https://www.ecice06.com/CN/Y2011/V37/I5/196

[1]	刘畅, 梁冰雪, 田荣坤, 秦玉华. 基于多特征融合和混合神经网络的医疗健康问题分类[J]. 计算机工程, 2026, 52(2): 342-355.
[2]	王春东, 赵智航, 杨伟杰, 方顺尧. 基于字词重现的中文文本对抗样本生成方法[J]. 计算机工程, 2026, 52(1): 303-313.
[3]	夏倪明, 张洁. 基于自适应集束搜索算法的中文对抗样本生成[J]. 计算机工程, 2025, 51(8): 131-140.
[4]	郑诚, 李鹏飞. 基于双超图神经网络特征融合的文本分类[J]. 计算机工程, 2025, 51(6): 127-135.
[5]	杨翰林, 黄瑞章, 秦永彬. 融合标签关系与法条逻辑的案情要素识别方法[J]. 计算机工程, 2025, 51(12): 119-129.
[6]	钱来, 赵卫伟. 基于对比学习和注意力机制的文本分类方法[J]. 计算机工程, 2024, 50(7): 104-111.
[7]	游奔, 李晓红, 姚锦, 冯绍杰. 基于多粒度图与注意力机制的半监督短文本分类[J]. 计算机工程, 2024, 50(5): 83-90.
[8]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[9]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[10]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[11]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[12]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[13]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[14]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[15]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.

选择文件类型/文献管理软件名称

选择包含的内容

哈萨克语文本分类系统的设计与实现

Design and Implementation of Kazakh Text Categorization System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

哈萨克语文本分类系统的设计与实现

Design and Implementation of Kazakh Text Categorization System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价