基于独立分量分析的隐蔽Web领域聚类

doi:10.3969/j.issn.1000-3428.2009.07.061

计算机工程 ›› 2009, Vol. 35 ›› Issue (7): 175-176,. doi: 10.3969/j.issn.1000-3428.2009.07.061

基于独立分量分析的隐蔽Web领域聚类

王晓斌，温　春，石昭祥

(电子工程学院网络工程系602教研室，合肥 230037)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-04-05 发布日期:2009-04-05

Hidden Web Domain Clustering Based on Independent Component Analysis

WANG Xiao-bin, WEN Chun, SHI Zhao-xiang

(602 Teach Stuff, Department of Network Engineering, Electronic Engineering Institute, Hefei 230037)

Received:1900-01-01 Revised:1900-01-01 Online:2009-04-05 Published:2009-04-05

摘要/Abstract

摘要： 针对隐蔽Web主题领域自动识别问题，提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理，利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵，在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。

关键词: 隐蔽Web, 潜在语义, 独立分量分析, 文本聚类

Abstract: Aiming at organizing hidden Web databases according to their topic domains, this paper proposes an Independent Component Analysis(ICA) based algorithm for hidden Web domain clustering. Text is extracted from search interface pages as common Web pages, and TF-IDF formula is applied to weight terms. After selecting the top N-highest weight terms to construct VSM, the algorithm performs a singular value decomposition to implement features reconstruction. It applies ICA decomposition to obtain the cluster information. The main idea is utilizing the co-occurrence analysis and noise eliminating ability of Latent Semantic Index(LSI) to improve cluster performance. Experiment shows that the average precision is higher than 90 percent.

Key words: hidden Web, latent semantic, Independent Component Analysis(ICA), text clustering

中图分类号:

TP311

王晓斌;温　春;石昭祥. 基于独立分量分析的隐蔽Web领域聚类[J]. 计算机工程, 2009, 35(7): 175-176,.

WANG Xiao-bin; WEN Chun; SHI Zhao-xiang. Hidden Web Domain Clustering Based on Independent Component Analysis[J]. Computer Engineering, 2009, 35(7): 175-176,.

http://www.ecice06.com/CN/Y2009/V35/I7/175

[1]	许伟佳, 秦永彬, 黄瑞章, 陈艳平. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7): 59-66.
[2]	肖晓丽,吴瑶,周锡玲,廖卓凡. 基于差分进化的两阶段文本特征选择算法[J]. 计算机工程, 2019, 45(2): 303-309,314.
[3]	苗佳佳,沈雷,郭婧婧. 阵列天线下异步WCDMA信号的盲解码方法[J]. 计算机工程, 2018, 44(10): 107-111.
[4]	李惠富,陆光,景维鹏. 文本分类中基于K-Sprinkling的特征提取方法[J]. 计算机工程, 2017, 43(12): 141-146.
[5]	董永亮,柴旭清. 基于潜在语义的双层图像-文本多模态检索语义网络[J]. 计算机工程, 2016, 42(7): 299-303,309.
[6]	齐晓轩,郭婷婷,贾志勇. 基于Fast-ICA的Wigner-Ville分布交叉项消除方法[J]. 计算机工程, 2015, 41(8): 71-75.
[7]	陶舒怡，王明文，万剑怡，罗远胜，左家莉. 一种基于簇相合性的文本增量聚类算法[J]. 计算机工程, 2014, 40(6): 195-200.
[8]	吴舜尧，邵峰晶，王金龙，孙仁诚，王营. 融合语义资源和关键词的文本聚类[J]. 计算机工程, 2014, 40(4): 223-227.
[9]	马斌，陈俊杰. 脑图像数据中的独立分量分析方法[J]. 计算机工程, 2014, 40(3): 205-207.
[10]	邱云飞，王琳颍，邵良杉，郭红梅. 基于微博短文本的用户兴趣建模方法[J]. 计算机工程, 2014, 40(2): 275-279.
[11]	王永贵,林琳,刘宪国. 基于改进粒子群优化的文本聚类算法研究[J]. 计算机工程, 2014, 40(11): 172-177.
[12]	刘一正,杨静,李强. 基于URL 的中文多语义名词在线语义标注[J]. 计算机工程, 2014, 40(10): 150-154.
[13]	李志欣, 施智平, 陈宏朝, 吴璟莉. 基于语义学习的图像多模态检索[J]. 计算机工程, 2013, 39(3): 258-263.
[14]	熊志伟, 全海燕, 周荣强. 基于Bessel函数展开的ICA语音增强[J]. 计算机工程, 2013, 39(3): 311-315.
[15]	罗志增, 蔡新波. 基于CuBICA算法的EEG伪迹去除方法[J]. 计算机工程, 2012, 38(3): 180-182,186.

选择文件类型/文献管理软件名称

选择包含的内容

基于独立分量分析的隐蔽Web领域聚类

Hidden Web Domain Clustering Based on Independent Component Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于独立分量分析的隐蔽Web领域聚类

Hidden Web Domain Clustering Based on Independent Component Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价