作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 先进计算与数据处理 • 上一篇    下一篇

一种改进的Supervised-LDA文本模型及其应用

许腾腾,黄恒君   

  1. (兰州财经大学 统计学院,兰州 730020)
  • 收稿日期:2016-12-09 出版日期:2018-01-15 发布日期:2018-01-15
  • 作者简介:许腾腾(1992—),男,硕士研究生,主研方向为异源异构数据整合、函数型数据分析;黄恒君,副教授、博士。
  • 基金资助:
    国家社会科学基金青年项目“基于大数据整合的空气质量测度方法研究”(14CTJ009);陇原青年创新人才扶持计划项目“基于大数据整合的‘废旧数据’应用研究”(14GSD95);甘肃省财政厅高校基本科研业务费专项基金“大数据整合下的统计调查技术及其经济应用研究”(GZ14007);全国统计科学研究重点项目“网络大数据统计生产及其数据质量控制研究”(2017LZ43)。

An Improved Supervised-LDA Text Model and Its Application

XU Tengteng,HUANG Hengjun   

  1. (Department of Statistics,Lanzhou University of Finance and Economics,Lanzhou 730020,China)
  • Received:2016-12-09 Online:2018-01-15 Published:2018-01-15

摘要: 有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模型以及该模型主题分类存在的问题,通过验证sl-LDA模型的分类精度,对sl-LDA模型与s-LDA模型进行新闻主题分类实验。在中文和英文新闻语料库上的实验结果表明,英文语料库分类精度提高约3.80%,中文语料库提高约1.77%。

关键词: s-LDA模型, 响应变量, 新闻主题, 主题模型, 类别标签

Abstract: Supervised-Latent Dirichlet Distribution Allocation (s-LDA) model cannot handle the multi-label problem and s-LDA model is not correct distribution in the classification model.The Supervised Labled-LDA(sl-LDA) model is proposed by adding a category label based on the response variable.It analyses s-LDA model and existed problem of topic classification,through verifying the classification accuracy of sl-LDA model,the paper classifies the sl-LDA model and s-LDA model.Experimental results in the Chinese and English news corpus show that English corpus classification performance is improved by about 3.80% and Chinese corpus is improved by about 1.77%.

Key words: s-LDA model, response variable, news topic, topic model, category label

中图分类号: