基于句法结构与修饰词的句子相似度计算

doi:10.3969/j.issn.1000-3428.2017.09.042

计算机工程

基于句法结构与修饰词的句子相似度计算

邓涵^1a,朱新华 ^1a,2,李奇^1a,彭琦 ^1b

(1.广西师范大学 a.计算机科学与信息工程学院;b.网络中心,广西桂林 541004; 2.广西区域多源信息集成与智能处理协同创新中心,广西桂林 541004)

收稿日期:2016-08-16 出版日期:2017-09-15 发布日期:2017-09-15
作者简介:邓涵(1991—),女,硕士研究生,主研方向为自然语言处理;朱新华(通信作者),教授;李奇、彭琦,硕士研究生。
基金资助:
国家自然科学基金(61363036,61462010);广西师范大学自然科学青年基金“词汇语义相似度计算研究”。

Sentence Similarity Calculation Based on Syntactic Structure and Modifier

DENG Han^1a,ZHU Xinhua^1a,2,LI Qi ^1a,PENG Qi ^1b

(1a.College of Computer Science and Information Engingeering; 1b.Network Center,Guangxi Normal University, Guilin,Guangxi 541004,China; 2.Collaborative Innovation Center of Guangxi Regional Multi-source Information Integration and Intelligent Processing,Guilin,Guangxi 541004,China)

Received:2016-08-16 Online:2017-09-15 Published:2017-09-15

摘要/Abstract

摘要： 根据汉语句子结构复杂、词语一词多义的特点,提出一种句子相似度计算方法。对句子进行句法分析和依存关系的预处理,提取句子结构中的主、谓、宾、介词等主要成分的词语集合,从而准确地表达出句子的浅层语义,并利用《知网》计算不同句子相同成分之间的语义相似度。考虑依存句法关系中的定中关系和状中关系起到的语义修饰作用,在句法结构基础上进一步融入修饰词,综合计算句子的语义相似度,区分句子主题内容的一致性和句子间的反义关系。以微软研究院释义语料库中抽取的30对句子作为测试集,实验结果表明,提出方法的皮尔森相关系数达到0.89,F值达到85.7%,具有较好的准确性与实用性。

关键词: 句子相似度, 知网, 依存树, 句法结构, 修饰词

Abstract: According to the complex structure and polysemy characteristics of Chinese sentences,this paper proposes a sentence similarity calculation method.It pretreats the sentence through syntactic analysis and dependency relationship,and extracts word set of main components such as subject,predicate,object,preposition and so on,thus the shallow semantics of sentences can be expressed accurately.HowNet is used to calculate the semantic similarity between the same components of different sentences.Considering semantic modification effect of attribute relationship and adverbial relationship in dependency syntactic relations,based on syntactic structure,further integrating into the modifiers,the sentence semantic similarity is comprehensive by calculated to distinguish consistency of sentence topic content and the antonym relationship between sentences.The extracted 30 pairs of sentences are used as test sets,which are taken from paraphrase corpus of Microsoft Research Institute Corpus.Experimental results indicate that the Pearson correlation coefficient of the proposed method reaches 0.89 and the F-measure reaches 85.7%,which has better accuracy and practicability.

Key words: sentence similarity, HowNet, dependency tree, syntactic structure, modifier

中图分类号:

TP391

邓涵,朱新华,李奇,彭琦. 基于句法结构与修饰词的句子相似度计算[J]. 计算机工程.

DENG Han,ZHU Xinhua,LI Qi,PENG Qi. Sentence Similarity Calculation Based on Syntactic Structure and Modifier[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2017/V43/I9/240

参考文献

参考文献［1］LEUSEH G,UEFFING N,NEY H,et al.A Novel String-to-String Distance Measure with Applications to Machine Translation Evaluation［J］.Journal of Magnetic Resonance,2003,8(6):28-36. ［2］穗志方,俞士汶.基于骨架依存树的语句相似度计算模型［C］//中文信息处理国际会议论文集.北京:清华大学出版社,1998:458-465. (下转第249页) (上接第244页) ［3］李素建.基于语义计算的语句相关度研究［J］.计算机工程与应用,2002,38(7):75-76. ［4］刘群,李素建.基于《知网》的词汇语义相似度计算［D］.北京:中国科学院计算技术研究所,2002. ［5］江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算［J］.中文信息学报,2008,22(5):84-89. ［6］朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算［J］.计算机应用,2013,33(8):2276-2279,2288. ［7］李家南.IT领域问答系统的研究与实现［D］.广州:华南理工大学,2016. ［8］李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算［J］.计算机应用研究,2003,20(12):15-17. ［9］张华平.NLPIR简介［EB/OL］.(2014-12-12).http://ictclas.nlpir.org/docs. ［10］王利局.基于语义分析树核的句子相似度计算［D］.大连:大连理工大学,2008. ［11］蓝雁玲,陈建超.基于词性及词性依存的句子结构相似度计算［J］.计算机工程,2011,37(10):47-50. ［12］腾少冬,王志良,王莉,等.基于马尔可夫链的情感计算建模方法［J］.计算机工程,2005,31(5):17-19. ［13］王志良,解仑,董平.情感计算数学模型的研究初探［J］.计算机工程,2004,30(21):33-34. ［14］微软研究院释库［EB/OL］.(2015-07-18).http://www.datatang.com/data/14263. ［15］李佳媛.汉语句子相似度计算技术及其应用［D］.北京:北京信息科技大学,2013. ［16］庄成龙,钱龙华,周国栋.基于树核函数的实体语义关系抽取方法研究［J］.中文信息学报,2009,23(1):3-8. ［17］刘宏哲.一种基于本体的句子相似度计算方法［J］.计算机科学,2013,40(1):251-256. 编辑顾逸斐

[1]	杨海洋, 张兴鹏. 融合多通道图卷积网络的方面级情感分析模型[J]. 计算机工程, 2023, 49(11): 61-69.
[2]	李世宝, 李贺, 赵庆帅, 殷乐乐, 刘建航, 黄庭培. 融合外部语义知识的中文文本蕴含识别[J]. 计算机工程, 2021, 47(1): 44-49.
[3]	王青松, 张衡, 李菲. 基于文本多维度特征的自动摘要生成方法[J]. 计算机工程, 2020, 46(9): 110-116.
[4]	陈俊月, 郝文宁, 张紫萱, 唐新德, 康睿智, 莫斐. 基于改进句子相似度算法的释义识别研究[J]. 计算机工程, 2020, 46(9): 76-82.
[5]	李玉龙,刘任任,赵津锋,臧浪,曹斌. 分簇感知网络中基于压缩感知的数据收集方法[J]. 计算机工程, 2018, 44(10): 129-135.
[6]	裴飞龙,闵华松. 基于修正偏移量的句子相似度算法[J]. 计算机工程, 2017, 43(9): 234-239.
[7]	蒲梅,周枫,周晶晶,严馨,周兰江. 基于加权TextRank的新闻关键事件主题句提取[J]. 计算机工程, 2017, 43(8): 219-224.
[8]	邱树伟,李英龙,袁利永. 无源感知网络中采用动态分片的IPv6数据包传递方案[J]. 计算机工程, 2017, 43(7): 100-109.
[9]	李晓红,曹林,宿云,马慧芳. 融合统计信息与语义相似度的特征扩展算法[J]. 计算机工程, 2017, 43(6): 177-181.
[10]	彭艺,崔自如,陈昌凯. 无线认知网络中的选择触发协作频谱感知[J]. 计算机工程, 2017, 43(3): 89-93.
[11]	马云飞,苑乐,朱菲菲. 基于认知网络的无人机通信网络系统[J]. 计算机工程, 2016, 42(7): 37-41.
[12]	魏韡,向阳. 基于2008版《知网》的词语相似度计算方法[J]. 计算机工程, 2015, 41(9): 215-219.
[13]	张志昌,姚东任,刘霞,陈松毅,鲁小勇. 融合句法结构变换与词汇语义特征的文本蕴涵识别[J]. 计算机工程, 2015, 41(9): 199-204.
[14]	李付民，杨静，贺樑. 基于中文句法结构的关系挖掘[J]. 计算机工程, 2014, 40(7): 143-147.
[15]	陈争宝, 陈旺虎. 面向任务型无线传感器网络的拓扑控制方法[J]. 计算机工程, 2013, 39(4): 118-122.

选择文件类型/文献管理软件名称

选择包含的内容

基于句法结构与修饰词的句子相似度计算

Sentence Similarity Calculation Based on Syntactic Structure and Modifier

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于句法结构与修饰词的句子相似度计算

Sentence Similarity Calculation Based on Syntactic Structure and Modifier

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价