语义关系相似度计算中的数据标准化方法比较

doi:10.3969/j.issn.1000-3428.2012.10.010

计算机工程 ›› 2012, Vol. 38 ›› Issue (10): 38-40.

语义关系相似度计算中的数据标准化方法比较

王正鹏，谢志鹏，邱培超

(复旦大学计算机科学技术学院，上海 201203)

收稿日期:2011-07-20 出版日期:2012-05-20 发布日期:2012-05-20
作者简介:王正鹏(1987－)，男，硕士研究生，主研方向：Web数据挖掘；谢志鹏，副教授；邱培超，硕士研究生

Comparison of Data Standardization Method in Semantic Relation Similarity Calculation

WANG Zheng-peng, XIE Zhi-peng, QIU Pei-chao

(School of Computer Science, Fudan University, Shanghai 201203, China)

Received:2011-07-20 Online:2012-05-20 Published:2012-05-20

摘要/Abstract

摘要： 研究数据标准化处理对语义关系相似度计算的影响。从大规模文本语料中提取词法模式，生成词对-词法模式矩阵，利用3种数据标准化方式对矩阵数据进行处理，通过规律学习方法对隐含语义关系相似度进行计算。实验结果表明，不做数据标准化、z-score标准化、范围标准化、熵加权标准化处理的分类准确率分别为0.87、0.89、0.95、0.96。

关键词: 语义关系, 相似度, 词法模式, 词对-词法模式矩阵, 数据标准化, Web数据挖掘

Abstract: This paper researches the influence of the data standardization for semantic relation similarity calculation. It extracts lexical pattern from huge text corpus, generates the word pair-lexical pattern matrix, employs three methods to standard the original data matrix, and uses law study method to calculate the similarity between relations. Experimental result shows that without any standardization, the classification task with a statistically significant average precision score is 0.87, z-score standardization is 0.89, interval standardization is 0.95, and weighted based on entropy is 0.96.

Key words: semantic relation, similarity, lexical pattern, word pair-lexical pattern matrix, data standardization, Web data mining

中图分类号:

TP311

王正鹏, 谢志鹏, 邱培超. 语义关系相似度计算中的数据标准化方法比较[J]. 计算机工程, 2012, 38(10): 38-40.

WANG Zheng-Feng, XIE Zhi-Feng, QIU Pei-Chao. Comparison of Data Standardization Method in Semantic Relation Similarity Calculation[J]. Computer Engineering, 2012, 38(10): 38-40.

https://www.ecice06.com/CN/Y2012/V38/I10/38

[1]	李启文, 王治和, 杜辉, 鲁德鹏. 基于高斯分布的自适应密度峰值聚类算法[J]. 计算机工程, 2025, 51(4): 137-148.
[2]	胡书林, 张华军, 邓小涛, 王征华. 结合依存图卷积的中文文本相似度计算研究[J]. 计算机工程, 2025, 51(3): 76-85.
[3]	魏嵬, 丁香香, 郭梦星, 杨钊, 刘辉. 文本相似度计算方法综述[J]. 计算机工程, 2024, 50(9): 18-32.
[4]	李红娇, 王宝金, 王朝晖, 胡仁豪. 基于模型相似度与本地损失的双重客户端选择算法[J]. 计算机工程, 2024, 50(8): 153-164.
[5]	林加艺, 夏鸿斌, 刘渊. 基于类比学习的数学应用题求解模型[J]. 计算机工程, 2024, 50(7): 63-70.
[6]	耿丽丽, 牛保宁. 基于通道相似度熵的卷积神经网络裁剪[J]. 计算机工程, 2024, 50(7): 133-143.
[7]	李雪, 王雅文, 张前进. 基于信息检索的源代码自动命名[J]. 计算机工程, 2024, 50(6): 304-310.
[8]	邓远飞, 李加伟, 蒋运承. 基于知识注入提示学习的专利短语相似度计算[J]. 计算机工程, 2024, 50(4): 294-302.
[9]	翁裕源, 许柏炎, 蔡瑞初. 基于异构图分层学习的细粒度多文档摘要抽取[J]. 计算机工程, 2024, 50(3): 336-344.
[10]	史艳琼, 查昭, 张文亮, 戴尔愉, 陈中. 基于深度估计置信度的聚焦形貌恢复[J]. 计算机工程, 2024, 50(3): 233-241.
[11]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[12]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.
[13]	杨振宇, 王磊, 马博, 杨雅婷, 董瑞, 艾孜麦提·艾瓦尼尔, 王震. 一种针对维汉的跨语言远程监督方法[J]. 计算机工程, 2023, 49(2): 271-278.
[14]	刘栋, 杨辉, 姬少培, 曹扬. 基于多模型加权组合的文本相似度计算模型[J]. 计算机工程, 2023, 49(10): 97-104.
[15]	潘金凤, 尹丽菊, 高明亮, 邹国峰. 压缩感知观测信号的低秩稀疏分解[J]. 计算机工程, 2022, 48(8): 234-239.

选择文件类型/文献管理软件名称

选择包含的内容

语义关系相似度计算中的数据标准化方法比较

Comparison of Data Standardization Method in Semantic Relation Similarity Calculation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

语义关系相似度计算中的数据标准化方法比较

Comparison of Data Standardization Method in Semantic Relation Similarity Calculation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价