基于CPat-Tree的URL索引模型裁剪方法

doi:10.3969/j.issn.1000-3428.2008.07.018

计算机工程 ›› 2008, Vol. 34 ›› Issue (7): 53-55. doi: 10.3969/j.issn.1000-3428.2008.07.018

基于CPat-Tree的URL索引模型裁剪方法

赵泽宇，闫华

(复旦大学信息化办公室，上海 200433)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-04-05 发布日期:2008-04-05

Pruning Method of URL Index Model Based on CPat-Tree

ZHAO Ze-yu, YAN Hua

(Informatization Office, Fudan University, Shanghai 200433)

Received:1900-01-01 Revised:1900-01-01 Online:2008-04-05 Published:2008-04-05

摘要/Abstract

摘要： 海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法，通过键值相似度实现键聚类，直接对存储数组遍历以合并相似的叶子节点，减少索引占用空间，提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度，因此其具有良好的扩展性。

关键词: CPat-Tree方法, 裁剪, URL数据库, 内容过滤

Abstract: Large growth in the number of URLs makes the indexes of Internet content filtering systems overstaffed. A pruning method of index model based on CPat-Tree is put forward. The method compares the similarity of keys of CPat-Tree and classifies them into clusters. After combination, the storage of arrays is largely reduced and query efficiency is improved. Due to the relevance between the similarity of keys and the effect of pruning method, the method is proved with good expansibility.

Key words: CPat-Tree method, pruning, URL database, content filtering

中图分类号:

TP391.3

赵泽宇;闫华. 基于CPat-Tree的URL索引模型裁剪方法[J]. 计算机工程, 2008, 34(7): 53-55.

ZHAO Ze-yu; YAN Hua. Pruning Method of URL Index Model Based on CPat-Tree[J]. Computer Engineering, 2008, 34(7): 53-55.

http://www.ecice06.com/CN/Y2008/V34/I7/53

[1]	冉瑞生, 翁稳稳, 王宁, 彭顺顺. 基于人脸关键特征提取的表情识别[J]. 计算机工程, 2023, 49(2): 254-262.
[2]	黄君扬, 王振宇, 梁家卿, 肖仰华. 基于自裁剪异构图的NL2SQL模型[J]. 计算机工程, 2022, 48(9): 71-77,88.
[3]	孙伟, 常鹏帅, 戴亮, 张小瑞, 陈旋, 代广昭. 基于注意力引导数据增强的车型识别[J]. 计算机工程, 2022, 48(7): 300-306.
[4]	汤文琳, 谢凯, 文畅, 贺建飚. 深度聚类索引下的海量地震数据快速三维可视化[J]. 计算机工程, 2022, 48(11): 275-283.
[5]	张文,杨之江,胡正华,孟诣卓. 任意输电线路的DEM快速裁剪算法[J]. 计算机工程, 2017, 43(3): 316-321.
[6]	杨浩,林喜军,曲海鹏. 分布式网络下改进的Top-k查询算法[J]. 计算机工程, 2017, 43(2): 79-84.
[7]	梁婷婷,李春青,李海生. 基于内容过滤PageRank的Top-k学习资源匹配推荐[J]. 计算机工程, 2017, 43(2): 220-226.
[8]	张梓卷,康宝生. 一种基于线裁剪的图像适配改进算法[J]. 计算机工程, 2015, 41(6): 201-205,210.
[9]	赵红. 基于KMP的高效半脆弱音频水印算法[J]. 计算机工程, 2012, 38(5): 111-113.
[10]	庄景明, 王明文, 叶茂盛. 基于内容过滤的农业信息推荐系统[J]. 计算机工程, 2012, 38(11): 38-41.
[11]	蔡龙, 马秀丽, 张开翼, 万旺根. 基于可见性裁剪的地形数据流式传输策略[J]. 计算机工程, 2010, 36(13): 283-285.
[12]	蔡虹;沈雷;李永红. 基于覆盖测试的嵌入式软件自动裁剪[J]. 计算机工程, 2010, 36(1): 73-75.
[13]	赵洁;肖南峰. 基于.NET的可裁剪式多层SmartERP系统[J]. 计算机工程, 2008, 34(24): 25-27.
[14]	张玲达;金　林;程秀霞;江　飞. 一种基于内容的混合模式过滤模型[J]. 计算机工程, 2008, 34(24): 64-66.
[15]	肖明忠;侯潇潇;闵博楠. P2P文件共享系统的内容过滤方案[J]. 计算机工程, 2008, 34(16): 1-3.

选择文件类型/文献管理软件名称

选择包含的内容

基于CPat-Tree的URL索引模型裁剪方法

Pruning Method of URL Index Model Based on CPat-Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于CPat-Tree的URL索引模型裁剪方法

Pruning Method of URL Index Model Based on CPat-Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价