基于网页文本依存特征的人名消歧

doi:10.3969/j.issn.1000-3428.2012.19.035

计算机工程 ›› 2012, Vol. 38 ›› Issue (19): 133-136. doi: 10.3969/j.issn.1000-3428.2012.19.035

基于网页文本依存特征的人名消歧

杨欣欣^1,2，李培峰^1,2，朱巧明^1,2

(1. 苏州大学计算机科学与技术学院，江苏苏州 215006； 2. 江苏省计算机信息处理技术重点实验室，江苏苏州 215006)

收稿日期:2011-12-30 出版日期:2012-10-05 发布日期:2012-09-29
作者简介:杨欣欣(1988－)，男，硕士研究生，主研方向：自然语言处理，人名消歧；李培峰，副教授；朱巧明，教授
基金资助:
国家自然科学基金资助项目(60970056, 61070123, 61003155)；江苏省自然科学基金资助项目(BK2008160)；高等学校博士学科点专项基金资助项目(20093201110006)；模式识别国家重点实验室开放课题基金资助项目

Name Disambiguation Based on Dependency Feature in Web Page Text

YANG Xin-xin ^1,2, LI Pei-feng ^1,2, ZHU Qiao-ming ^1,2

(1. School of Computer Science & Technology, Soochow University, Suzhou 215006, China; 2. Jiangsu Provincial Key Lab of Computer Information Processing Technology , Suzhou 215006, China)

Received:2011-12-30 Online:2012-10-05 Published:2012-09-29

摘要/Abstract

摘要： 研究互联网中的人名消歧问题。抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征，利用二层聚类算法，根据依存特征将可信度高的文档聚类，使用辅助特征将剩余文档加到现有聚类结果中，由此实现人名消歧。实验结果证明，该方法消歧效果优于其他人名消歧方法。

关键词: 人名歧义, 依存特征, 人名消歧, 命名实体, 聚类

Abstract: This paper works on the common ambiguity problem on Internet. The following is the proposed method: extract the dependency features which are related to the key name entities in the Web page text, while extract supporting features such as named entity extraction; cluster these features by a two-step cluster algorithm which clusters the documents with high reliability in the first stage and then merges the other documents to the existing clustering results. Experimental result shows that the proposed disambiguation system has better performance than common methods.

Key words: name ambiguity, dependency feature, name disambiguation, named entity, clustering

中图分类号:

TP391

杨欣欣, 李培峰, 朱巧明. 基于网页文本依存特征的人名消歧[J]. 计算机工程, 2012, 38(19): 133-136.

YANG Xin-Xin, LI Pei-Feng, SHU Qiao-Meng. Name Disambiguation Based on Dependency Feature in Web Page Text[J]. Computer Engineering, 2012, 38(19): 133-136.

http://www.ecice06.com/CN/Y2012/V38/I19/133

参考文献

[1] Malin B, Airoldi E, Carley K M. A Network Analysis Model for Disambiguation of Names in Lists[J]. Computational & Mathematical Organization Theory, 2005, 11(2): 119-139.
[2] Bagga A, Baldwin B. Entity-based Cross-document Corefe- rencing Using the Vector Space Model[C]//Proc. of the 17th International Conference on Computational Linguistics. [S. l.]: IEEE Press, 1998: 75-85.
[3] Chen Ying, Jin Peng, Li Wenjie, et al. The Chinese Persons Name Disambiguation Evaluation: Exploration of Personal Name Disambiguation in Chinese News[C]//Proc. of CIPS- SIGHAN Joint Conference on Chinese Language Processing. Beijing, China: Chinese Information Processing Society of China, 2010: 346-352.
[4] Mann G, Yarowsky D. Unsupervised Personal Name Disambigu- ation[C]//Proc. of CoNLL’03. Edmonton, Canada: Association for Computational Linguistics, 2003: 33-40.
[5] Fleischman M, Hovy E. Multi-document Person Name Resolution[C]//Proc. of the 42nd Annual Meeting of the Association for Computational Linguistics. Madrid, Spain: [s. n.], 2004: 1-8.
[6] Chen Ying, Martin J. Towards Robust Unsupervised Personal Name Disambiguation[C]//Proc. of 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Pargue, Czech: [s. n.], 2007: 190-198.
[7] Ono S, Sato I, Yoshida M, et al. Person Name Disambiguation in Web Pages Using Social Network, Compound Words and Latent Topics[C]//Proc. of the 12th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Heidelberg, Germany: Springer-Verlag, 2008: 260-271.
[8] Malin B. Unsupervised Name Disambiguation via Social Network Similarity[C]//Proc. of 2005 SIAM International Conference on Data Mining. Newport Beach, USA: [s. n.], 2005: 93-102.
[9] Romano L, Buza K, Giuliano C. XMedia: Web People Search by Clustering with Machinely Learned Similarity Measures[C]// Proc. of Web People Search Evaluation Workshop at World Wide Web Conference. Madrid, Spain: [s. n.], 2009.
[10] 王厚峰. 指代消解的基本方法和实现技术[J]. 中文信息学报, 2002, 16(6): 45-48.
[11] Elmacioglu E, Fan Y, Su T, et al. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features[C]// Proc. of the 4th International Workshop on Semantic Evaluations. Pargue, Czech: [s. n.], 2007: 268-271.

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[3]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[4]	杨长沛, 廖列法. 基于门控空洞卷积特征融合的中文命名实体识别[J]. 计算机工程, 2023, 49(8): 85-95.
[5]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[6]	张家熔, 苑津莎, 许珈宁, 罗志宏. 基于多元信息嵌入与协同神经网络的力学实体识别算法[J]. 计算机工程, 2023, 49(7): 125-134.
[7]	陈明, 刘蓉, 张晔. 基于多重注意力机制的中文医疗实体识别[J]. 计算机工程, 2023, 49(6): 314-320.
[8]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[9]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[10]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[11]	毛亮, 赵林均, 余敦辉, 孙斌. 基于知识蒸馏的企业命名实体识别模型[J]. 计算机工程, 2023, 49(5): 90-96.
[12]	朱红, 牛浩然, 朱彤. 基于字词融合与对抗训练的行业人物实体识别[J]. 计算机工程, 2023, 49(5): 56-62.
[13]	李晓腾, 张盼盼, 勾智楠, 高凯. 基于多任务学习的多模态命名实体识别方法[J]. 计算机工程, 2023, 49(4): 114-119.
[14]	廖列法, 谢树松. 基于注意力机制特征融合的中文命名实体识别[J]. 计算机工程, 2023, 49(4): 256-262.
[15]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.

选择文件类型/文献管理软件名称

选择包含的内容

基于网页文本依存特征的人名消歧

Name Disambiguation Based on Dependency Feature in Web Page Text

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于网页文本依存特征的人名消歧

Name Disambiguation Based on Dependency Feature in Web Page Text

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价