%0 Journal Article %A 李 锋 %T 基于网站拓扑的网页内容精化算法 %D 2007 %R 10.3969/j.issn.1000-3428.2007.21.018 %J 计算机工程 %P 50-51,5 %V 33 %N 21 %X 通过对网页中无关信息分布特点和模式的分析,提出了一种新颖的网页内容精化算法——基于网站拓扑信息的网页无关内容识别与剔除算法。该算法在对网页内容进行分区后,认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除。测试结果表明,该算法具有较高的识别率及精度。
%U http://www.ecice06.com/CN/10.3969/j.issn.1000-3428.2007.21.018