微博文本的句向量表示及相似度计算方法研究

doi:10.3969/j.issn.1000-3428.2017.05.023

计算机工程

微博文本的句向量表示及相似度计算方法研究

段旭磊,张仰森,孙祎卓

(北京信息科技大学智能信息处理研究所,北京 100192)

收稿日期:2016-07-04 出版日期:2017-05-15 发布日期:2017-05-15
作者简介:段旭磊(1991—),男,硕士研究生,主研方向为中文信息处理、数据挖掘、机器学习;张仰森(通信作者),教授、博士后;孙祎卓,硕士研究生。
基金资助:
国家自然科学基金(61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)。

Research on Sentence Vector Representation and Similarity Calculation Method About Microblog Texts

DUAN Xulei,ZHANG Yangsen,SUN Yizhuo

(Institute of Intelligence Information Processing,Beijing Information Science and Technology University,Beijing 100192,China)

Received:2016-07-04 Online:2017-05-15 Published:2017-05-15

摘要/Abstract

摘要： 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。

关键词: 微博文本, 相似度计算, 词向量, 高维词库, 句向量

Abstract: In Word2vec framework,aiming at the feature of Microblog text,this paper proposes the method using word vector or sentence vector of high dimension word database mapping calculation,and constructs sentence vector using three algorithms:Using Word2vec to expand text,and TF-IDF to obtain sentence vector.Adding the word vectors into sentence vector;Building a word bank to obtain high dimension vector space for the sentence.Through comparing the three methods,it selects the model fitting Microblog field.Experimental results show that the sentence vector calculation method using high dimension word database mapping is the best.

Key words: Microblog texts, similarity calculation, word vector, high dimension word database, sentence vector

中图分类号:

TP391

段旭磊,张仰森,孙祎卓. 微博文本的句向量表示及相似度计算方法研究[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2017.05.023.

DUAN Xulei,ZHANG Yangsen,SUN Yizhuo. Research on Sentence Vector Representation and Similarity Calculation Method About Microblog Texts[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2017.05.023.

http://www.ecice06.com/CN/Y2017/V43/I5/143

参考文献

参考文献［1］Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space［C］//Pro-ceedings of ICLR’13.New York,USA:ACM Press,2013:1-12. ［2］Mikolov T,Yih W T,Zweig G.Linguistic Regularities in Continuous Space Word Representations［C］//Proceedings of HLT-NAACL’13.New York,USA:ACM Press,2013:236-248. ［3］Feng S,Liu R,Wang Q,et al.Word Distributed Representation Based Text Clustering［C］//Proceedings of International Conference on Cloud Computing and Intelligence Systems.Washington D.C.,USA:IEEE Press,2014:213-225. ［4］刘铭,吴冲,刘远超,等.基于特征权重量化的相似度计算方法［J］.计算机学报,2015,38(7):1420-1433. ［5］朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算［J］.中文信息学报,2006,20(1):14-20. ［6］黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法［J］.计算机学报,2011,34(5):856-864. ［7］徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制［J］.中文信息学报,2007,21(1):96-100. ［8］王小林,王东,杨思春,等.基于《知网》的词语语义相似度算法［J］.计算机工程,2014,40(12):177-181. ［9］Hinton G E.Learning Distributed Representations of Con-cepts［C］//Proceedings of the 8th Annual Conference on Cognitive Science Society.Amherst,USA:［s.n.］,1986:1-12. ［10］Bengio Y,Schwenk H,Senécal J S,et al.A Neural Probabilistic Language Model［J］.Journal of Machine Learning Research,2003,3(6):1137-1155. ［11］Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality［J］.Advances in Neural Information Processing Systems,2013,26(1):3111-3119. ［12］Le Q V,Mikolov T.Distributed Representations of Sentences and Documents［C］//Proceedings of the 31st International Conference on Machine Learning.Washington D.C.,USA:IEEE Press.2014:1188-1196. ［13］Zhang W,Xu W,Chen G,et al.A Feature Extraction Method Based on Word Embedding for Word Similarity Computing［J］.Communications in Computer & Info-rmation Science,2014,496(1):160-167. ［14］张剑峰,夏云庆,姚建民.微博文本处理研究综述［J］.中文信息学报,2012,26(4):21-27,42. ［15］Lai S,Liu K,Xu L,et al.How to Generate a Good Word Embedding?［J］.IEEE Intelligent Systems,2015,31(6):5-14. 编辑索书志

[1]	李军怀, 陈苗苗, 王怀军, 崔颖安, 张爱华. 基于ALBERT-BGRU-CRF的中文命名实体识别方法[J]. 计算机工程, 2022, 48(6): 89-94,106.
[2]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[3]	雷恒林, 古兰拜尔·吐尔洪, 买日旦·吾守尔, 曾琪. 基于Hellinger距离与词向量的终身机器学习主题模型[J]. 计算机工程, 2022, 48(11): 89-95.
[4]	高永兵, 黎预璇, 高军甜, 马占飞. 基于用户意图的微博文本生成技术研究[J]. 计算机工程, 2022, 48(1): 119-126.
[5]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[6]	郭渝洛, 边浩东, 董润婷, 唐嘉豪, 王晓英, 黄建强. 基于SIMD的并行傅里叶空间图像相似度计算[J]. 计算机工程, 2021, 47(11): 247-253.
[7]	李俊, 吕学强. 融合BERT语义加权与网络图的关键词抽取方法[J]. 计算机工程, 2020, 46(9): 89-94.
[8]	陈俊月, 郝文宁, 张紫萱, 唐新德, 康睿智, 莫斐. 基于改进句子相似度算法的释义识别研究[J]. 计算机工程, 2020, 46(9): 76-82.
[9]	王义, 沈洋, 戴月明. 基于细粒度多通道卷积神经网络的文本情感分析[J]. 计算机工程, 2020, 46(5): 102-108.
[10]	杨海清, 范琦. 基于时空分析的路口相似度计算方法[J]. 计算机工程, 2020, 46(4): 33-39.
[11]	孙毅, 裘杭萍, 康睿智. 基于方差权重因子选词的SIF句向量模型[J]. 计算机工程, 2019, 45(9): 204-210,234.
[12]	许莹莹, 黄浩. 基于标签分解的口语理解模型[J]. 计算机工程, 2019, 45(7): 237-241.
[13]	卢晨阳,康雁,杨成荣,蒲斌. 基于语义结构的迁移学习文本特征对齐算法[J]. 计算机工程, 2019, 45(5): 116-121.
[14]	喻靖民,向凌云,曾道建. 基于Word2vec的自然语言隐写分析方法[J]. 计算机工程, 2019, 45(3): 309-314.
[15]	周锦峰,叶施仁,王晖. 基于深度卷积神经网络模型的文本情感分类[J]. 计算机工程, 2019, 45(3): 300-308.

选择文件类型/文献管理软件名称

选择包含的内容

微博文本的句向量表示及相似度计算方法研究

Research on Sentence Vector Representation and Similarity Calculation Method About Microblog Texts

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

微博文本的句向量表示及相似度计算方法研究

Research on Sentence Vector Representation and Similarity Calculation Method About Microblog Texts

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价