作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 先进计算与数据处理 • 上一篇    下一篇

基于改进k-medoids算法的XML文档聚类

冯少荣,潘炜炜,林子雨   

  1. (厦门大学信息科学与技术学院,福建 厦门 361005)
  • 收稿日期:2014-09-01 出版日期:2015-09-15 发布日期:2015-09-15
  • 作者简介:冯少荣(1964-),男,副教授、博士,主研方向:机器学习,数据挖掘;潘炜炜,硕士研究生;林子雨,讲师、博士。
  • 基金资助:
    国家自然科学基金资助项目(61303004);国家社会科学基金资助重大项目(13&ZD148);福建省自然科学基金资助项目(2013J05099)。

XML Documents Clustering Based on Improved k-medoids Algorithm

FENG Shaorong,PAN Weiwei,LIN Ziyu   

  1. (School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
  • Received:2014-09-01 Online:2015-09-15 Published:2015-09-15

摘要: XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。

关键词: XML文档聚类, 遗传算法, 模糊聚类, k-medoids聚类, 聚类个数, 聚类中心

Abstract: Due to extensibility,semi-structured and ability of self-description and other characteristics,eXtensible Markup Language(XML) has been the standard of data representation and exchange.An efficient,fast XML clustering mechanism,will greatly shorten the information retrieval time,improve the efficiency of data query and find out the potential information value.In order to improve the clustering quality of massive XML document collections,a novel XML document clustering method is proposed based on the study of structure and the similarity in the XML documents,according to the improved k-medoids clustering algortihm.The analyses of experimental results show that the proposed method has satisfactory clustering convergence and accuracy.

Key words: XML documents clustering, Genetic Algorithm(GA), fuzzy clustering, k-medoids clustering, clustering number, clustering center

中图分类号: