一种基于主动学习的相似记录匹配方法

doi:10.3969/j.issn.1000-3428.2009.03.071

计算机工程 ›› 2009, Vol. 35 ›› Issue (3): 211-213. doi: 10.3969/j.issn.1000-3428.2009.03.071

一种基于主动学习的相似记录匹配方法

陈　波1,2，王延章1

(1. 大连理工大学管理学院，大连 116023；2. 中国人民银行征信中心，北京 100140)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-02-05 发布日期:2009-02-05

Matching Approach for Similar Records Based on Active Learning

CHEN Bo1,2, WANG Yan-zhang1

(1. Management College, Dalian University of Technology, Dalian 116023; 2. Credit Reference Center, The People’s Bank of China, Beijing 100140)

Received:1900-01-01 Revised:1900-01-01 Online:2009-02-05 Published:2009-02-05

摘要/Abstract

摘要： 针对当前相似记录匹配方法中存在的问题，提出一种改进的机器学习匹配方法。该方法聚类相似记录，生成决策树学习委员会，由学习委员会主动挑选信息量最大的相似记录，由用户标注匹配结果后对学习委员会成员进行训练，自主学习不同数据源间相似记录匹配规则。实际数据的实验分析验证了该方法可以在有效减少训练实例数量的同时获得较高的匹配精度。

关键词: 信息集成, 相似记录匹配, 主动学习, 决策树

Abstract: This paper discusses the problems in current matching methods of similar records, and proposes an improved method of machine learning. Similar records are clustered to generate a committee of decision tree learners. The committee actively chooses the most informative similar records for users to distinguish between duplicate and non-duplicate records. Those pairs of records are used to train the committee. The matching rules of multiple data source are automatically learned. Experiments on real data show that this method effectively reduces the number of training instances, and achieves high matching accuracy.

Key words: information integration, similar records matching, active learning, decision tree

中图分类号:

TP311

陈　波;王延章. 一种基于主动学习的相似记录匹配方法[J]. 计算机工程, 2009, 35(3): 211-213.

CHEN Bo; WANG Yan-zhang. Matching Approach for Similar Records Based on Active Learning[J]. Computer Engineering, 2009, 35(3): 211-213.

http://www.ecice06.com/CN/Y2009/V35/I3/211

[1]	王博, 张远, 杨咏蓓. 基于模仿学习的决策树码率自适应算法研究[J]. 计算机工程, 2023, 49(5): 206-214.
[2]	甘红楠, 张凯. 参数自适应下基于近邻图的近似最近邻搜索[J]. 计算机工程, 2022, 48(9): 28-36.
[3]	冉懿, 王润年, 潘红伟, 俞海猛, 袁培森. 面向停电分类预测的因子分解机模型[J]. 计算机工程, 2022, 48(5): 98-103,111.
[4]	李莉, 任振康, 石可欣. 代价敏感的Boosting软件缺陷预测方法[J]. 计算机工程, 2022, 48(3): 175-180.
[5]	常硕, 张彦春. 基于袋外预测和扩展空间的随机森林改进算法[J]. 计算机工程, 2022, 48(3): 1-9.
[6]	纪文桃, 李媛媛, 秦宝东. 基于决策树的SM4分组密码工作模式识别[J]. 计算机工程, 2021, 47(8): 157-161,169.
[7]	何发镁, 马慧珍, 王旭仁, 冯安然. 基于特征分组聚类的异常入侵检测系统研究[J]. 计算机工程, 2020, 46(4): 123-128,134.
[8]	张月平, 李茹, 王元龙, 柴清华, 武宇娟, 关勇. 汉语语篇零形式识别与填充方法研究[J]. 计算机工程, 2020, 46(3): 79-86.
[9]	李杨, 陈子彬, 谢光强. 一种基于ExtraTrees的差分隐私保护算法[J]. 计算机工程, 2020, 46(2): 134-140.
[10]	张传伟, 曾虹钧, 杨萌月, 李波, 陈尚瑞. 基于多分辨率滤波通道的多尺度行人检测[J]. 计算机工程, 2020, 46(2): 235-241.
[11]	李远航, 陈先来, 刘莉, 安莹, 李忠民. 面向差分隐私保护的随机森林算法[J]. 计算机工程, 2020, 46(1): 93-101.
[12]	高宁化, 王姮, 冯兴华. 基于动态模糊决策树的心电信号分类方法[J]. 计算机工程, 2020, 46(1): 80-86.
[13]	杨晨, 梁意文, 谭成予, 周雯. 结合XGBoost的树突状细胞改进算法[J]. 计算机工程, 2019, 45(9): 194-197,203.
[14]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.
[15]	张旭, 周新志, 赵成萍, 邵伦. 基于犹豫模糊决策树的非均衡数据分类[J]. 计算机工程, 2019, 45(8): 75-79,91.

选择文件类型/文献管理软件名称

选择包含的内容

一种基于主动学习的相似记录匹配方法

Matching Approach for Similar Records Based on Active Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种基于主动学习的相似记录匹配方法

Matching Approach for Similar Records Based on Active Learning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价