作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2012, Vol. 38 ›› Issue (10): 182-184. doi: 10.3969/j.issn.1000-3428.2012.10.055

• 人工智能及识别技术 • 上一篇    下一篇

面向Web信息检索的虚核文本分类算法

李 静,杨小帆,孙启干   

  1. (重庆大学计算机学院,重庆 400044)
  • 收稿日期:2011-07-19 出版日期:2012-05-20 发布日期:2012-05-20
  • 作者简介:李 静(1986-),女,硕士研究生,主研方向:文本分类,数据挖掘;杨小帆,教授、博士生导师;孙启干,硕士研究生
  • 基金资助:
    重庆市自然科学基金资助项目(CSTC2010BB2046);中央高校研究生科研创新基金资助项目(CDJXS11181164)

Virtual Kernel Text Categorization Algorithm for Web Information Retrieval

LI Jing, YANG Xiao-fan, SUN Qi-gan   

  1. (College of Computer Science, Chongqing University, Chongqing 400044, China)
  • Received:2011-07-19 Online:2012-05-20 Published:2012-05-20

摘要: 提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。

关键词: 信息检索, 文本分类, 特征选择, 向量空间模型, 引力场模型, 虚核

Abstract: This paper proposes a novel Virtual Kernel(VK) text categorization algorithm. It obtains a virtual kernel for each categorize through evaluating the contribution of each feature term. When an unlabeled text comes, the algorithm can give the categorize it belongs to through evaluating the attraction which is from every virtual kernel. Experimental results show that compared with the k Nearest Neighbor(kNN) and na?ve Bayes algorithms, the proposed algorithm is remarkably superior to them in terms of classification efficiency and time cost.

Key words: information retrieval, text categorization, feature selection, vector space model, attraction field model, Virtual Kernel(VK)

中图分类号: