绿色网络网页正文内容提取算法

doi:10.3969/j.issn.1000-3428.2013.07.056

计算机工程 ›› 2013, Vol. 39 ›› Issue (7): 252-256. doi: 10.3969/j.issn.1000-3428.2013.07.056

绿色网络网页正文内容提取算法

龙珑¹，邓伟²

(1. 广西师范学院计算机与信息工程学院，南宁 530023；2. 广西肿瘤防治研究所，南宁 530021)

收稿日期:2012-07-31 出版日期:2013-07-15 发布日期:2013-07-12
作者简介:龙珑(1980－)，男，高级工程师、硕士，主研方向：机器学习；邓伟(通讯作者)，副主任医师、博士
基金资助:
国家创新基金资助项目(10C26224504901)；广西自然科学基金资助项目(2011GXNSFB0180825)

Text Content Extraction Algorithm for Green Network Webpage

LONG Long¹, DENG Wei ²

(1. College of Computer and Information Engineering, Guangxi Teachers Education University, Nanning 530023, China; 2. Guangxi Cancer Institute, Nanning 530021, China)

Received:2012-07-31 Online:2013-07-15 Published:2013-07-12

摘要/Abstract

摘要： 互联网中的网页有较多商业广告，绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题，提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块，使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分，利用与不良关键字的比较，确定并过滤不良网页。实验结果表明，经粒子群权值算法优化提取后，绿色网络系统对不良网页的识别准确率为86.9%，召回率为95.6%，F值为91.02%，比优化前有较大提高。

关键词: 绿色网络, 网瘾, 不良内容, 粒子群优化, 正文提取

Abstract: At present, the Web pages have more business in the Internet advertising, the green network system can not filter the site with poor content. In order to solve this problem, this paper proposes a text content extraction algorithm for green network webpage. It uses the Document Object Model(DOM) tree to identify and extract the pages of text content module, uses an optimized content extraction algorithm based on particle swarm weight to score each section of the main content, compares the scores with the unhealthy keywords to identify and filter harmful Web pages. Experimental results show that, after optimized by new algorithm, the accuracy rate of identifying harmful webpage is 86.9%, the recall rate is 95.6%, the F value is 91.02%, and is higher than before optimization.

Key words: green network, net addiction, undesired content, Particle Swarm Optimization(PSO), text extraction

中图分类号:

TP301.6

龙珑, 邓伟. 绿色网络网页正文内容提取算法[J]. 计算机工程, 2013, 39(7): 252-256.

LONG Long, DENG Wei. Text Content Extraction Algorithm for Green Network Webpage[J]. Computer Engineering, 2013, 39(7): 252-256.

http://www.ecice06.com/CN/Y2013/V39/I7/252

参考文献

[1] 宁葵, 龙珑. 绿色网络不良内容语义分析方法研究[J]. 计算机应用研究, 2010, 27(12): 4643-4645.
[2] Lochovsky F H, Wang Jiying. Data-rich Section Extraction from HTML Pages[C]//Proc. of the 3rd International Con- ference on Web System Engineering. [S. l.]: IEEE Computer Society Press, 2002.
[3] W3C. Document Object Model[EB/OL]. (2010-06-05). http:// www.w3.org/DOM/.
[4] 吴麒, 陈兴蜀. 基于取值优化的网页正文内容提取算法[J]. 华南理工大学学报: 自然科学版, 2011, 39(4): 32-36.
[5] 欧健文, 董守斌, 蔡斌. 模块化网页主题信息的提取方法[J]. 清华大学学报: 自然科学版, 2005, 45(3): 1743-1747.
[6] 韩光, 赵春霞, 胡雪蕾. 一种新的SVM主动学习算法及其在障碍物检测中的应用[J]. 计算机研究与发展, 2009, 46(11): 1934-1941.
[7] 龙军, 祝恩. 选择最大可能预测错误样例的主动学习算法[J]. 计算机研究与发展, 2008, 45(3): 472-478.
[8] 李连霞, 马军, 陈竹敏. 基于多特征的网页内容提取研究[C]//第三届和谐人机环境联合学术会议议论会集. 济南: 清华大学出版社, 2007.
[9] Sushi G, Gai K, David N, et al. DOM-based Content Ex-
traction of HTML Document[C]//Proc. of the 12th Inter- national World Wide Web Conference. [S. l.]: ACM Press, 2003.
[10] Cai Deng, He Xiaofei, Wen Jirong, et al. Block-level Link Anagysis[C]//Proc. of SIGIR’04. [S. l.]: ACM Press, 2004.
[11] Tim W, William H H. Web Content Extraction Through Histogram Clustering[C]//Proc. of the 18th International Conference on Artificial Neural in Engineering. New York, USA: [s. n.], 2008.
[12] Javier A M, Koen D, Maie F M. Language Independent Content Extraction from Web Pages[C]//Proc. of the 9th Dutch-belgian Information Retrieval Workshop. [S. l.]: University of Twente, 2009.
[13] 何凤英. 基于语义理解的中文博文倾向性分析[J]. 计算机应用, 2011, 31(8): 2130-2137.
[14] Zhu Jingbo, Wang Huizhen, Sou B K, et al. Active Learning with Sampling by Uncertainty and Density for Data Annotations[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6): 1323-1331.
[15] 郑皎凌, 唐常杰. 基于伪属性语义匹配的Deep Web信息抽取[J]. 四川大学学报: 工程科学版, 2009, 41(2): 231-234.
编辑刘冰

选择文件类型/文献管理软件名称

选择包含的内容

绿色网络网页正文内容提取算法

Text Content Extraction Algorithm for Green Network Webpage

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

[1]	桑永宣, 魏江坡, 王博, 宋莹. 具有边缘缓存机制的混合启发式任务卸载算法[J]. 计算机工程, 2023, 49(4): 149-158.
[2]	孙扬威, 戚湧. 基于聚类混合采样与PSO-Stacking的车载CAN入侵检测方法[J]. 计算机工程, 2023, 49(1): 138-145.
[3]	王改云, 陆家卓, 焦傲, 郭智超, 张琦. 混沌粒子群鸡群融合优化的RSSI质心定位算法[J]. 计算机工程, 2021, 47(6): 197-202.
[4]	高航航, 王翔, 赵尚弘, 彭聪. 面向航空信息网络的控制器可靠性部署方法[J]. 计算机工程, 2020, 46(6): 221-229.
[5]	张瑞, 陈红卫. 基于特征优化与SVPSO的工控入侵检测[J]. 计算机工程, 2020, 46(4): 19-25.
[6]	丁承君, 刘强. 基于空间权重与模糊感知的节点部署策略[J]. 计算机工程, 2019, 45(7): 140-146,153.
[7]	易国洪,代瑜,冯智莉,黎慧源. 基于SVM与DOM重心半径模型的Web正文提取[J]. 计算机工程, 2019, 45(6): 206-210.
[8]	邹卯荣,傅明,熊兵. 基于时延与负载的SDN控制器部署模型[J]. 计算机工程, 2019, 45(4): 30-35.
[9]	胡章芳,孙林,张毅,鲍合章. 一种基于改进QPSO的机器人路径规划算法[J]. 计算机工程, 2019, 45(4): 281-287.
[10]	林雨培,陈兰岚,邹俊忠. 基于PSO混合特征选择算法在疲劳驾驶中的应用[J]. 计算机工程, 2019, 45(2): 278-283.
[11]	叶莉, 吴春明, 强保华, 谢武. 基于矩阵填充与改进PSO算法的多标准协同过滤[J]. 计算机工程, 2019, 45(12): 176-181,200.
[12]	张裕平, 龚晓峰, 雒瑞森. 基于稀疏化双向二维主成分分析的人脸识别[J]. 计算机工程, 2019, 45(12): 232-236.
[13]	刘学平, 李玙乾, 刘励, 王哲, 刘宇. 嵌入SENet结构的改进YOLOV3目标识别算法[J]. 计算机工程, 2019, 45(11): 243-248.
[14]	张树涛, 谭海波, 陈良锋, 吕波. 一种高效的分布式爬虫系统负载均衡策略[J]. 计算机工程, 2019, 45(11): 62-67.
[15]	范宏伟,胡宇翔,兰巨龙. 基于FPGA的虚拟网络功能数据包处理加速架构[J]. 计算机工程, 2018, 44(8): 112-119,126.

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

绿色网络网页正文内容提取算法

Text Content Extraction Algorithm for Green Network Webpage

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价