含有语义特征的网页新闻自动抽取

doi:10.3969/j.issn.1000-3428.2010.07.059

计算机工程 ›› 2010, Vol. 36 ›› Issue (7): 173-175,. doi: 10.3969/j.issn.1000-3428.2010.07.059

含有语义特征的网页新闻自动抽取

施洋，张奇，黄萱菁

(复旦大学计算机科学技术学院，上海 200433)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-04-05 发布日期:2010-04-05

Automatic Web News Extraction with Semantic Features

SHI Yang, ZHANG Qi, HUANG Xuan-jing

(School of Computer Science, Fudan University, Shanghai 200433)

Received:1900-01-01 Revised:1900-01-01 Online:2010-04-05 Published:2010-04-05

摘要/Abstract

摘要： 通过分析新闻网页的语义特征以及网页之间存在的通用性质，提出一种含有语义特征的网页新闻自动抽取方法，包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下，F1值可以达到96.9%。实验结果证明，该方法能有效提高网页信息抽取算法的精度，降低机器学习所需要的标注成本。

关键词: 网络信息抽取, 语义特征, 局部特征

Abstract: This paper analyzes the semantic features and the similarity of Web news pages, and presents an automatic Web news extraction method with semantic features. It utilizes semantic classifier to find the seed information, and uses portion features to build information extraction rules. The F1-Value of Web news extraction can reach to 94.2% when add semantic features to classifier. The performance of F1-Value can reach to 96.9% when combine semantic classifier and portion features based information extraction method. Experimental result shows that the method can effectively improve the accuracy of Web information extraction method and cut the cost of manual labeling work.

Key words: Web information extraction, semantic features, portion features

中图分类号:

TP393

施洋;张奇;黄萱菁. 含有语义特征的网页新闻自动抽取[J]. 计算机工程, 2010, 36(7): 173-175,.

SHI Yang; ZHANG Qi; HUANG Xuan-jing. Automatic Web News Extraction with Semantic Features[J]. Computer Engineering, 2010, 36(7): 173-175,.

http://www.ecice06.com/CN/Y2010/V36/I7/173

[1]	惠子薇, 何坤, 冯犇, 苏曜. 基于视觉特性的图像质量评价[J]. 计算机工程, 2023, 49(7): 189-195.
[2]	陈明, 刘蓉, 张晔. 基于多重注意力机制的中文医疗实体识别[J]. 计算机工程, 2023, 49(6): 314-320.
[3]	沈秀轩, 吴春雷, 冯叶棋, 程铭, 张俊三, 朱杰. 基于双分支特征融合的医学报告生成方法[J]. 计算机工程, 2023, 49(6): 274-283,291.
[4]	逄涛, 张学敏, 姚亚洲, 高明柯. 基于特征增强的光学遥感图像建筑物变化检测[J]. 计算机工程, 2023, 49(4): 182-187.
[5]	胡新荣, 龚闯, 张自力, 朱强, 彭涛, 何儒汉. 基于改进Deeplab v3+的服装图像分割网络[J]. 计算机工程, 2022, 48(7): 284-291.
[6]	符进武, 范自柱, 石林瑞, 郭心悦, 黄祎婧. 基于多尺度多粒度融合的行人重识别方法[J]. 计算机工程, 2022, 48(3): 271-279.
[7]	李佳宾, 李学伟, 刘宏哲, 徐成. 基于局部特征关联与全局注意力机制的行人重识别[J]. 计算机工程, 2022, 48(1): 245-252.
[8]	陈苏婷, 张良臣. 基于深度感知特征提取的室内场景理解[J]. 计算机工程, 2021, 47(6): 217-224.
[9]	田智慧, 郑付科, 高需. 内容一致性行人重识别算法[J]. 计算机工程, 2021, 47(3): 237-242.
[10]	张月平, 李茹, 王元龙, 柴清华, 武宇娟, 关勇. 汉语语篇零形式识别与填充方法研究[J]. 计算机工程, 2020, 46(3): 79-86.
[11]	张金凤, 石朝侠, 王燕清. 动态场景下基于视觉特征的SLAM方法[J]. 计算机工程, 2020, 46(10): 95-102.
[12]	谷兴龙, 谢珺, 靳红伟, 续欣莹. 基于词特征与语义特征的评价对象识别[J]. 计算机工程, 2019, 45(11): 218-224.
[13]	钟建, 徐扬, 陈树伟, 何星星. 一阶逻辑中基于稳定度的项评估方法[J]. 计算机工程, 2019, 45(11): 183-190,197.
[14]	谷凯凯,周东国,许晓路,蔡炜,周正钦,胡文山,黄华. 一种基于局部特征的PCNN电力故障区域提取方法[J]. 计算机工程, 2018, 44(7): 291-296.
[15]	施恩,李骞,顾大权,赵章明. 基于局部特征的卷积神经网络模型[J]. 计算机工程, 2018, 44(2): 282-286.

选择文件类型/文献管理软件名称

选择包含的内容

含有语义特征的网页新闻自动抽取

Automatic Web News Extraction with Semantic Features

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

含有语义特征的网页新闻自动抽取

Automatic Web News Extraction with Semantic Features

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价