基于模糊综合评判的相似重复记录识别方法

doi:10.3969/j.issn.1000-3428.2010.13.018

计算机工程 ›› 2010, Vol. 36 ›› Issue (13): 51-53. doi: 10.3969/j.issn.1000-3428.2010.13.018

基于模糊综合评判的相似重复记录识别方法

肖满生1，周浩慧2，王宏1

(1. 湖南工业大学科技学院，株洲 412008；2. 长沙商贸旅游职业技术学院，长沙 410004)

出版日期:2010-07-05 发布日期:2010-07-05
作者简介:肖满生(1968－)，男，副教授，主研方向：数据库技术，数据挖掘；周浩慧、王宏，讲师
基金资助:
湖南省教育厅科研基金资助项目(09C339)；湖南省科技计划基金资助项目(2008CK3083)

Identification Method of Approximately Duplicate Records Based on Fuzzy Integrated Estimation

XIAO Man-sheng1, ZHOU Hao-hui2, WANG Hong1

(1. College of Science and Technology, Hunan University of Technology, Zhuzhou 412008; 2. Changsha Commerce & Tourism College, Changsha 410004)

Online:2010-07-05 Published:2010-07-05

摘要/Abstract

摘要： 针对在基于字符串匹配的相似重复记录识别中，属性权值确定主观性太强的问题，提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价，通过模糊映射获得反映属性重要性的权值，并以此为基础进行相似重复记录识别。理论分析和实验表明，该方法能客观地获取各属性权值，因而在相似重复记录识别中有较高的识别精度。

关键词: 模糊综合评判, 相似重复记录, 属性权值, 相似度

Abstract: Aiming at the problem of very strong subjectivity in the attribute weight determination of dataset in identifying approximately duplicate records based on the character string matching method, the paper puts forward a method based on fuzzy integrated estimation to get attribute weight. It estimates the components of all attribute’s importance by multi users, and gets the attribute’s weight through fuzzy mapping, based on which the approximately duplicate records are identified. It can be proved from theory and practice that the method can objectively get all attribute weight, thus it has a higher precision in identifying approximately duplicate records.

Key words: fuzzy integrated estimation, approximately duplicate records, attribute weight, similarity

中图分类号:

TP311

肖满生, 周浩慧, 王宏. 基于模糊综合评判的相似重复记录识别方法[J]. 计算机工程, 2010, 36(13): 51-53.

XIAO Man-Sheng, ZHOU Gao-Hui, WANG Hong. Identification Method of Approximately Duplicate Records Based on Fuzzy Integrated Estimation[J]. Computer Engineering, 2010, 36(13): 51-53.

http://www.ecice06.com/CN/Y2010/V36/I13/51

[1]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[2]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.
[3]	杨振宇, 王磊, 马博, 杨雅婷, 董瑞, 艾孜麦提·艾瓦尼尔, 王震. 一种针对维汉的跨语言远程监督方法[J]. 计算机工程, 2023, 49(2): 271-278.
[4]	潘金凤, 尹丽菊, 高明亮, 邹国峰. 压缩感知观测信号的低秩稀疏分解[J]. 计算机工程, 2022, 48(8): 234-239.
[5]	周瑞朋, 秦进. 基于最佳子策略记忆的强化探索策略[J]. 计算机工程, 2022, 48(2): 106-112.
[6]	王治和, 曹旭琰, 杜辉. 一种优化初始点与自适应半径的密度聚类算法[J]. 计算机工程, 2022, 48(1): 51-59.
[7]	石彩霞, 李书琴, 刘斌. 多重检验加权融合的短文本相似度计算方法[J]. 计算机工程, 2021, 47(2): 95-102.
[8]	田智慧, 马占宇, 魏海涛. 基于密度核心的出租车载客轨迹聚类算法[J]. 计算机工程, 2021, 47(2): 133-138.
[9]	郭渝洛, 边浩东, 董润婷, 唐嘉豪, 王晓英, 黄建强. 基于SIMD的并行傅里叶空间图像相似度计算[J]. 计算机工程, 2021, 47(11): 247-253.
[10]	李宇霞, 孙永奇, 闫茹, 朱卫国. 基于CNN图像识别与语义可靠性的路径搜索方法[J]. 计算机工程, 2021, 47(1): 255-263,274.
[11]	王青松, 张衡, 李菲. 基于文本多维度特征的自动摘要生成方法[J]. 计算机工程, 2020, 46(9): 110-116.
[12]	陈俊月, 郝文宁, 张紫萱, 唐新德, 康睿智, 莫斐. 基于改进句子相似度算法的释义识别研究[J]. 计算机工程, 2020, 46(9): 76-82.
[13]	柯翔敏, 陈江, 罗光华. 一种改进的基于兴趣相似度推荐算法[J]. 计算机工程, 2020, 46(8): 78-84.
[14]	邱少明, 於涛, 杜秀丽, 陈波. 基于节点多属性相似性聚类的社团划分算法[J]. 计算机工程, 2020, 46(7): 84-90,97.
[15]	刘治国, 宋广跃, 蔡文珠, 刘庆利. 基于TextRank算法的未知网络协议帧定位方法[J]. 计算机工程, 2020, 46(7): 179-184.

选择文件类型/文献管理软件名称

选择包含的内容

基于模糊综合评判的相似重复记录识别方法

Identification Method of Approximately Duplicate Records Based on Fuzzy Integrated Estimation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于模糊综合评判的相似重复记录识别方法

Identification Method of Approximately Duplicate Records Based on Fuzzy Integrated Estimation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价