作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (5): 196-198. doi: 10.3969/j.issn.1000-3428.2011.05.066

• 人工智能及识别技术 • 上一篇    下一篇

哈萨克语文本分类系统的设计与实现

玛依来.哈帕尔,古丽拉.阿东别克   

  1. (新疆大学信息科学与工程学院,乌鲁木齐 830046)
  • 出版日期:2011-03-05 发布日期:2012-10-31
  • 作者简介:玛依来.哈帕尔(1985-),女,硕士研究生,主研方向:自然语言处理,计算机软件;古丽拉.阿东别克,教授
  • 基金资助:

    国家自然科学基金资助项目“现代哈萨克语词级文本语料库构建技术研究”(60763005);国家教育部、国家语委民族语言文字规范标准建设及信息化科研项目“基于语料库的哈萨克语词语标注规范研究”(MZ115-92)

Design and Implementation of Kazakh Text Categorization System

Mayra Hapar, Gulila Altenbek   

  1. (College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
  • Online:2011-03-05 Published:2012-10-31

摘要:

利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。

关键词: 文本分类, K-最近距离, 集中度, 分散度

Abstract:

The K-nearest-neighbor algorithm is adopted in the classification of the Kazakh text, while in characters chosen, a method that integrates language information and statistical information from the training corpus is applied. The weight of these characters is computed from three parameters: word frequency, centralized degree, decentralized degree. After training, the vector space model of the Kazakh text categorization is got, and the Kazakh text through K-nearest-neighbor algorithm is classified. Experimental results show that this method is feasible.

Key words: text categorization, K-nearest-neighbor, centralized degree, decentralized degree

中图分类号: