作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2010, Vol. 36 ›› Issue (16): 36-38. doi: 10.3969/j.issn.1000-3428.2010.16.013

• 软件技术与数据库 • 上一篇    下一篇

基于TAN的文本自动分类框架

刘 佳,贾彩燕   

  1. (北京交通大学计算机与信息技术学院,北京 100044)
  • 出版日期:2010-08-20 发布日期:2010-08-17
  • 作者简介:刘 佳(1984-),男,硕士,主研方向:文本挖掘;贾彩燕,博士
  • 基金资助:

    高等学校博士学科点专项科研基金资助项目(2007004038)

Automatic Text Categorization Framework Based on TAN

LIU Jia, JIA Cai-yan   

  1. (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044)
  • Online:2010-08-20 Published:2010-08-17

摘要:

介绍一种树状朴素贝叶斯(TAN)文本分类模型,对该模型存在的阈值选取问题进行实验分析,提出不需要进行阈值选取的TAN文本自动分类框架(ATAN)。在中英文非均匀类分布测试集上对基于ATAN的2种算法与手动选取阈值达到最优性能的BL-TAN进行对比,结果表明基于ATAN的算法具有更高性能。

关键词: 文本分类, 树状朴素贝叶斯模型, 贝叶斯网络

Abstract:

This paper introduces a Tree-Augmented Na?ve Bayes(TAN) text categorization model, analyzes its problem of threshold selection, and proposes an Automatic TAN(ATAN) text categorization framework. Two algorithms based on ATAN are compared to the BL-TAN with the best classification performance at a specified threshold both on Chinese and English imbalanced datasets. Results show that algorithms based on ATAN have higher performance than BL-TAN.

Key words: text categorization, Tree-Augmented Na?ve Bayes(TAN) model, Bayesian network

中图分类号: