作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

微博文本的句向量表示及相似度计算方法研究

段旭磊,张仰森,孙祎卓   

  1. (北京信息科技大学 智能信息处理研究所,北京 100192)
  • 收稿日期:2016-07-04 出版日期:2017-05-15 发布日期:2017-05-15
  • 作者简介:段旭磊(1991—),男,硕士研究生,主研方向为中文信息处理、数据挖掘、机器学习;张仰森(通信作者),教授、博士后;孙祎卓,硕士研究生。
  • 基金资助:
    国家自然科学基金(61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)。

Research on Sentence Vector Representation and Similarity Calculation Method About Microblog Texts

DUAN Xulei,ZHANG Yangsen,SUN Yizhuo   

  1. (Institute of Intelligence Information Processing,Beijing Information Science and Technology University,Beijing 100192,China)
  • Received:2016-07-04 Online:2017-05-15 Published:2017-05-15

摘要: 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。

关键词: 微博文本, 相似度计算, 词向量, 高维词库, 句向量

Abstract: In Word2vec framework,aiming at the feature of Microblog text,this paper proposes the method using word vector or sentence vector of high dimension word database mapping calculation,and constructs sentence vector using three algorithms:Using Word2vec to expand text,and TF-IDF to obtain sentence vector.Adding the word vectors into sentence vector;Building a word bank to obtain high dimension vector space for the sentence.Through comparing the three methods,it selects the model fitting Microblog field.Experimental results show that the sentence vector calculation method using high dimension word database mapping is the best.

Key words: Microblog texts, similarity calculation, word vector, high dimension word database, sentence vector

中图分类号: