基于DBSCAN算法的网页正文提取

doi:10.3969/j.issn.1000-3428.2011.03.023

计算机工程 ›› 2011, Vol. 37 ›› Issue (3): 64-66,69.

基于DBSCAN算法的网页正文提取

欧阳佳，林丕源

(华南农业大学信息学院，广州 510642)

出版日期:2011-02-05 发布日期:2011-01-28
作者简介:欧阳佳(1986－)，男，硕士研究生，主研方向：数据挖掘；林丕源，教授
基金资助:
国家自然科学基金资助项目(60573043)

Webpage Content Extraction Based on DBSCAN

OUYANG Jia, LIN Pi-yuan

(College of Informatics, South China Agricultural University, Guangzhou 510642, China)

Online:2011-02-05 Published:2011-01-28

摘要/Abstract

摘要： 针对网页正文提取问题，提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段，将每段看作二维空间中的一个点，利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低，并且不依赖于网站布局风格，适应性强。对各大国内外新闻类网站进行实验，结果表明，该方法对中英文新闻类网站的正文提取效果明显，具有较高的平均准确率。

关键词: 主题爬虫, 正文提取, DBSCAN算法, 密度

Abstract: For the problem of webpage content extraction, this paper presents a method based on section-factor to filter webpage and get the plain text paragraph. Each paragraph is regarded as a point in the two-dimensional space. The DBSCAN clustering algorithm can cluster these points to get the real content. This method has low complexity and does not depend on the site layout style, as well as has strong adaptability. Experiments are put on the news websites from domestic and international, and results show that for both Chinese and English news website has a high average accuracy and obvious effect.

Key words: topic-focused crawler, content extraction, DBSCAN, density

中图分类号:

TP18

欧阳佳, 林丕源. 基于DBSCAN算法的网页正文提取[J]. 计算机工程, 2011, 37(3): 64-66,69.

OU Yang-Jia, LIN Pi-Yuan. Webpage Content Extraction Based on DBSCAN[J]. Computer Engineering, 2011, 37(3): 64-66,69.

https://www.ecice06.com/CN/Y2011/V37/I3/64

[1]	李启文, 王治和, 杜辉, 鲁德鹏. 基于高斯分布的自适应密度峰值聚类算法[J]. 计算机工程, 2025, 51(4): 137-148.
[2]	栾方军, 龚琪, 袁帅. 基于注意力机制和多尺度融合的人群计数网络[J]. 计算机工程, 2025, 51(3): 352-361.
[3]	丁伟杰, 顾斌杰, 潘丰. 增量式稀疏密度加权孪生支持向量回归机[J]. 计算机工程, 2024, 50(7): 123-132.
[4]	谢新林, 尹东旭, 张涛源, 谢刚. 基于注意力机制的多尺度融合人群计数算法[J]. 计算机工程, 2024, 50(3): 290-297.
[5]	刘晓黎, 王轶彤. 基于自监督学习的多密度图会话推荐[J]. 计算机工程, 2023, 49(9): 60-68, 78.
[6]	潘大志, 蒋妍, 刘雅文. 求解多维背包问题的双决策交互差异算法[J]. 计算机工程, 2023, 49(7): 21-33.
[7]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[8]	黄奕秋, 胡晓, 杨佳信, 欧嘉敏. 基于背景抑制与上下文感知的人群计数网络[J]. 计算机工程, 2022, 48(9): 314-320.
[9]	曹瑞阳, 郭佑民, 牛满宇. 基于最大最小距离的多中心数据综合增强方法[J]. 计算机工程, 2022, 48(6): 174-181.
[10]	郭爱心, 夏殷锋, 王大为, 芦宾. 一种抗背景干扰的多尺度人群计数算法[J]. 计算机工程, 2022, 48(5): 251-257.
[11]	王芙银, 张德生, 肖燕婷. 基于加权共享近邻与累加序列的密度峰值算法[J]. 计算机工程, 2022, 48(4): 61-69.
[12]	曾茜, 韩华, 马媛媛. 基于模体的朴素贝叶斯链路预测方法[J]. 计算机工程, 2022, 48(10): 95-102.
[13]	王治和, 曹旭琰, 杜辉. 一种优化初始点与自适应半径的密度聚类算法[J]. 计算机工程, 2022, 48(1): 51-59.
[14]	王紫娇, 王晓丹. 基于EMD-MDGAN的HRRP增扩方法[J]. 计算机工程, 2021, 47(9): 259-265.
[15]	葛君伟, 杨广欣. 基于共享最近邻的密度自适应邻域谱聚类算法[J]. 计算机工程, 2021, 47(8): 116-123.

选择文件类型/文献管理软件名称

选择包含的内容

基于DBSCAN算法的网页正文提取

Webpage Content Extraction Based on DBSCAN

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于DBSCAN算法的网页正文提取

Webpage Content Extraction Based on DBSCAN

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价