计算机工程 ›› 2019, Vol. 45 ›› Issue (9): 204-210,234.doi: 10.19678/j.issn.1000-3428.0052381

• 人工智能及识别技术 • 上一篇    下一篇

基于方差权重因子选词的SIF句向量模型

孙毅, 裘杭萍, 康睿智   

  1. 中国人民解放军陆军工程大学 指挥控制工程学院, 南京 210000
  • 收稿日期:2018-08-13 修回日期:2018-09-13 出版日期:2019-09-15 发布日期:2019-09-03
  • 作者简介:孙毅(1993-),男,硕士研究生,主研方向为自然语言处理、网络通信;裘杭萍,教授、博士;康睿智,博士研究生。
  • 基金项目:
    江苏省自然科学基金(BK20150721,BK20161469);江苏省重点研发计划(BE2015728,BE2016904,BE2017616)。

SIF Sentence Vector Model Based on Word Selection by Variance Weight Factor

SUN Yi, QIU Hangping, KANG Ruizhi   

  1. Institute of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210000, China
  • Received:2018-08-13 Revised:2018-09-13 Online:2019-09-15 Published:2019-09-03

摘要: 针对平滑反频率(SIF)模型在文本分类和情感分析中性能较差的问题,在SIF模型的基础上,根据单词在不同分类任务类别中的分布情况,计算其对任务贡献度的方差权重(VW)因子,建立一种VW因子选词句向量模型CwVW-SIF。在标准文本分类数据集和情感分析数据集上进行测试,结果表明,CwVW-SIF相对SIF模型具有较高的分类精度。

关键词: 平滑反频率, 句向量, 方差权重, 文本分类, 情感分析

Abstract: To address the poor performance of the Smooth Inverse Frequency(SIF) model in text classification and sentiment analysis,based on the SIF model,the Variance Weight(VW) of the task contribution is calculated according to the distribution of words in different classification task,and a VW factor selection sentence vector model CwVW-SIF is established.Tested on the standard text classification datasets and sentiment analysis datasets,the results show that CwVW-SIF has higher classification accuracy than SIF model.

Key words: Smooth Inverse Frequency(SIF), sentence vector, Variance Weight(VW), text classification, emotion analysis

中图分类号: