基于内容相似度的网页正文提取

doi:10.3969/j.issn.1000-3428.2010.06.034

计算机工程 ›› 2010, Vol. 36 ›› Issue (06): 102-104.

基于内容相似度的网页正文提取

王利1，刘宗田1，王燕华2，廖涛1

(1. 上海大学计算机科学与工程学院，上海 200072；2. 上海海洋大学信息学院，上海 201306)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-03-20 发布日期:2010-03-20

Web Page Main Text Extraction Based on Content Similarity

WANG Li1, LIU Zong-tian1, WANG Yan-hua2, LIAO Tao1

(1. School of Computer Science and Engineering, Shanghai University, Shanghai 200072; 2. School of Information Technology, Shanghai Fisheries University, Shanghai 201306)

Received:1900-01-01 Revised:1900-01-01 Online:2010-03-20 Published:2010-03-20

摘要/Abstract

摘要： 提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树，无须用HTMLparser包进行解析，而是利用文本相似度计算方法，通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性，由此进行网页清洗与正文抽取，获得网页文本信息，实验结果表明，该方法对正文抽取具有较高的通用性与准确率。

关键词: 网页正文抽取, 网页映射, 网页清洗, 文本相似度

Abstract: This paper proposes a method of simplifying complex Web page script and mapping it into tree structure easy to operate. It does not depend on DOM tree, and does not need utilize htmlparser bag to parse. By calculating text similarity, it calculates the similarity between the content of tree node and headings of different levels to determine the usefulness of the text information, cleans the Web page and extracts the content information. Experimental results show that the method has better universal property and accuracy rate in main text extraction.

Key words: Web page main text extraction, Web page mapping, Web page cleaning, text similarity

中图分类号:

TP393

王利;刘宗田;王燕华;廖涛. 基于内容相似度的网页正文提取[J]. 计算机工程, 2010, 36(06): 102-104.

WANG Li; LIU Zong-tian; WANG Yan-hua; LIAO Tao. Web Page Main Text Extraction Based on Content Similarity[J]. Computer Engineering, 2010, 36(06): 102-104.

https://www.ecice06.com/CN/Y2010/V36/I06/102

[1]	胡书林, 张华军, 邓小涛, 王征华. 结合依存图卷积的中文文本相似度计算研究[J]. 计算机工程, 2025, 51(3): 76-85.
[2]	魏嵬, 丁香香, 郭梦星, 杨钊, 刘辉. 文本相似度计算方法综述[J]. 计算机工程, 2024, 50(9): 18-32.
[3]	刘栋, 杨辉, 姬少培, 曹扬. 基于多模型加权组合的文本相似度计算模型[J]. 计算机工程, 2023, 49(10): 97-104.
[4]	石彩霞, 李书琴, 刘斌. 多重检验加权融合的短文本相似度计算方法[J]. 计算机工程, 2021, 47(2): 95-102.
[5]	冯兴杰, 张乐, 曾云泽. 基于多注意力CNN的问题相似度计算模型[J]. 计算机工程, 2019, 45(9): 284-290.
[6]	缪峰,贾华丁,熊于宁. 基于服务相似度的移动用户近似邻居选取方法[J]. 计算机工程, 2018, 44(5): 162-167,173.
[7]	夏青,严馨,余正涛,汪建成,高盛祥,洪旭东. 融合要素及主题的汉越双语新闻话题分析[J]. 计算机工程, 2016, 42(9): 186-191.
[8]	程传鹏?, 齐晖. 文本相似度计算在主观题评分中的应用[J]. 计算机工程, 2012, 38(5): 288-290.
[9]	王少康, 董科军, 阎保平. 基于语句节奏特征的作者身份识别研究[J]. 计算机工程, 2011, 37(9): 4-5,8.
[10]	赵延平, 曹存根, 谢丽聪. 基于CRFs和领域规则的业务名称识别[J]. 计算机工程, 2011, 37(11): 200-202.
[11]	吕楠;罗军勇;刘尧;杨慧洁. 基于话题三层结构模型的话题演化分析算法[J]. 计算机工程, 2009, 35(23): 71-72,7.
[12]	高茂庭;王正欧. 基于文档标引图模型的文本相似度策略[J]. 计算机工程, 2008, 34(7): 19-22.

选择文件类型/文献管理软件名称

选择包含的内容

基于内容相似度的网页正文提取

Web Page Main Text Extraction Based on Content Similarity

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于内容相似度的网页正文提取

Web Page Main Text Extraction Based on Content Similarity

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价