摘要: 针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
中图分类号:
蔡欣宝;郭若飞;赵朋朋;崔志明. Web论坛数据源增量爬虫的研究[J]. 计算机工程, 2010, 36(9): 285-287.
CAI Xin-bao; GUO Ruo-fei; ZHAO Peng-peng; CUI Zhi-ming. Research on Web Forum Data Source Incremental Crawler[J]. Computer Engineering, 2010, 36(9): 285-287.