基于网站拓扑的网页内容精化算法

doi:10.3969/j.issn.1000-3428.2007.21.018

计算机工程 ›› 2007, Vol. 33 ›› Issue (21): 50-51,5. doi: 10.3969/j.issn.1000-3428.2007.21.018

基于网站拓扑的网页内容精化算法

李锋

(华南理工大学工商管理学院，广州 510640)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-11-05 发布日期:2007-11-05

Web Content Refining Algorithm Based on Website Topological Information

LI Feng

(School of Business Administration, South China University of Technology, Guangzhou 510640)

Received:1900-01-01 Revised:1900-01-01 Online:2007-11-05 Published:2007-11-05

摘要/Abstract

摘要： 通过对网页中无关信息分布特点和模式的分析，提出了一种新颖的网页内容精化算法——基于网站拓扑信息的网页无关内容识别与剔除算法。该算法在对网页内容进行分区后，认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除。测试结果表明，该算法具有较高的识别率及精度。

关键词: 网页内容精化, 信息提取, 网站拓扑

Abstract: Based on the observation and analysis of occurrence of the type of trivial information inside Web pages, this paper proposes a website topology based Web content refining algorithm. The algorithm partitions the content of web page into five sections, and then prunes the sections which have the same contents with the father node of Web page in website graph representation. Experimental results show the algorithm has a high ratio of precise and recall.

Key words: Web content refinement, information retrieval, website topology

中图分类号:

TP391

李锋. 基于网站拓扑的网页内容精化算法[J]. 计算机工程, 2007, 33(21): 50-51,5.

LI Feng. Web Content Refining Algorithm Based on Website Topological Information[J]. Computer Engineering, 2007, 33(21): 50-51,5.

http://www.ecice06.com/CN/Y2007/V33/I21/50

[1]	张雯雯, 徐杨, 白芮, 陈娜. 基于改进堆叠沙漏网络的动物姿态估计[J]. 计算机工程, 2023, 49(2): 263-270.
[2]	王文奇,李勇,关云云. 文本信息深度提取及多关键词并行匹配技术研究[J]. 计算机工程, 2018, 44(12): 281-287.
[3]	马冬冬,衷璐洁,朱敬茹. 基于GPU的LLVM程序分析信息并行提取[J]. 计算机工程, 2017, 43(10): 23-30.
[4]	仰继连. 基于MMAE指数的高光谱影像序列微弱变化信息提取[J]. 计算机工程, 2016, 42(7): 261-266.
[5]	彭敏,傅慧,黄济民,黄佳佳,刘纪平. 基于核主成分分析与小波变换的高质量微博提取[J]. 计算机工程, 2016, 42(1): 180-186.
[6]	彭敏,高斌龙,黄济民,刘纪平. 基于高质量信息提取的微博自动摘要[J]. 计算机工程, 2015, 41(7): 36-42.
[7]	吴晓芳,杨志豪,林鸿飞,王健. 基于语义关系的疾病知识提取系统[J]. 计算机工程, 2015, 41(1): 284-288.
[8]	褚衍杰,魏强,李云照. 基于关键词语义与作用域扩展的事件检测[J]. 计算机工程, 2014, 40(8): 273-276,281.
[9]	黄安琪，冯超，孙建锋，唐朝京. 基于软件无线电平台的RFID被动侦测技术[J]. 计算机工程, 2014, 40(4): 91-95.
[10]	王文奇, 吴志刚, 李世晓. Windows注册表隐藏检测完全解决方案[J]. 计算机工程, 2012, 38(14): 106-108.
[11]	张嘉易, 尚文利, 刘英. 基于DFS的工程图多层次图块信息提取[J]. 计算机工程, 2012, 38(11): 192-195.
[12]	林道淼, 古辉. 面向对象程序的理解与可视化表示算法[J]. 计算机工程, 2012, 38(06): 72-74.
[13]	刘英, 尚文利, 张嘉易. 工程图中明细表标题栏线框图形的智能识别[J]. 计算机工程, 2011, 37(9): 207-209,212.
[14]	张志远, 徐涛, 冯霞. 航班信息抽取规则的自动生成技术[J]. 计算机工程, 2011, 37(6): 65-67.
[15]	陈超祥, 陈华锋, 叶时平. 高分辨率影像中基于纹理的建筑区信息提取[J]. 计算机工程, 2011, 37(21): 126-130.

选择文件类型/文献管理软件名称

选择包含的内容

基于网站拓扑的网页内容精化算法

Web Content Refining Algorithm Based on Website Topological Information

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于网站拓扑的网页内容精化算法

Web Content Refining Algorithm Based on Website Topological Information

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价