社会媒体网页内容的分割与抽取

doi:10.3969/j.issn.1000-3428.2011.21.053

计算机工程 ›› 2011, Vol. 37 ›› Issue (21): 155-158. doi: 10.3969/j.issn.1000-3428.2011.21.053

社会媒体网页内容的分割与抽取

解姝^1，叶施仁²，肖春¹

(1. 湘潭大学智能计算与信息处理教育部重点实验室，湖南湘潭 411105；2. 常州大学信息学院，江苏常州 213164)

收稿日期:2011-04-21 出版日期:2011-11-05 发布日期:2011-11-05
作者简介:解姝(1986－)，女，硕士研究生，主研方向：信息抽取；叶施仁，博士；肖春，副教授、博士

Segmentation and Extraction for Social Media Web Page Content

XIE Shu ¹, YE Shi-ren ², XIAO Chun¹

(1. Key Laboratory of Intelligent Computing & Information Processing of MOE, Xiangtan University, Xiangtan 411105, China; 2. College of Information, Changzhou University, Changzhou 213164, China)

Received:2011-04-21 Online:2011-11-05 Published:2011-11-05

摘要/Abstract

摘要： 为实现社会媒体网页内容的分割与抽取，利用k-means算法识别出页面的频繁块并形成一个频繁簇集合，找出该集合中的主题频繁簇，对其中的频繁块结构进行自学习，无需训练样本，即可自动生成抽取规则。实验结果表明，该方法能抽取各种风格的社会媒体网页内容，具有较高的准确率和召回率。

关键词: 社会媒体, DOM结构, k-means算法, 自学习, 抽取规则, 网页内容抽取

Abstract: This paper presents a segmentation and extraction method which does not need any hand-crafted rules and training examples for content-rich pages in social media. It identifies the frequent blocks in page by using k-means algorithm and obtains a collection of frequent clusters. It identifies the topic frequent clusters and induces extraction rules from the frequent blocks in topic frequent clusters through self-supervised approach. Experimental results show that it is efficient and robust for social media Web pages with various styles and layouts with high precision and recall rate.

Key words: social media, DOM structure, k-means algorithm, self-learning, extraction rule, Web page content extraction

中图分类号:

TP393

解姝, 叶施仁, 肖春. 社会媒体网页内容的分割与抽取[J]. 计算机工程, 2011, 37(21): 155-158.

JIE Shu, XIE Shi-Ren, XIAO Chun. Segmentation and Extraction for Social Media Web Page Content[J]. Computer Engineering, 2011, 37(21): 155-158.

https://www.ecice06.com/CN/Y2011/V37/I21/155

[1]	张海涛, 秦鹏程. 基于GMS与FPME的视频目标跟踪方法[J]. 计算机工程, 2021, 47(7): 226-231.
[2]	闫成起, 赵利华, 陈梦婕, 周军. 基于统计聚类方法的儿童下肢肌电信号周期识别[J]. 计算机工程, 2021, 47(5): 273-276,284.
[3]	邱月, 郑柏通, 蔡超. 多约束复杂环境下UAV航迹规划策略自学习方法[J]. 计算机工程, 2021, 47(5): 44-51.
[4]	孙静勇, 马福民. 基于邻域归属信息混合度量的粗糙K-Means算法[J]. 计算机工程, 2021, 47(3): 109-116.
[5]	孔德瑾, 姚晓玲. 面向5G边缘计算的Kubernetes资源调度策略[J]. 计算机工程, 2021, 47(2): 32-38.
[6]	魏文浩, 唐泽坤, 刘刚. 基于距离和密度的PBK-means算法[J]. 计算机工程, 2020, 46(9): 68-75.
[7]	何发镁, 马慧珍, 王旭仁, 冯安然. 基于特征分组聚类的异常入侵检测系统研究[J]. 计算机工程, 2020, 46(4): 123-128,134.
[8]	康雁, 杨其越, 李浩, 梁文韬, 李晋源, 崔国荣, 王沛尧. 基于主题相似性聚类的自适应文本分类[J]. 计算机工程, 2020, 46(3): 93-98.
[9]	周文军, 张勇, 王昱洁. 基于DSSD的静态手势实时识别方法[J]. 计算机工程, 2020, 46(2): 255-261.
[10]	曹永轶, 金伟正, 吴静, 罗威, 朱博. 一种面向SDN的跨平面协作DDoS检测与防御方法[J]. 计算机工程, 2020, 46(11): 148-156.
[11]	王泽,陈永乐,王潇健. 基于CSI的WLAN认证及攻击定位方案[J]. 计算机工程, 2019, 45(6): 181-187.
[12]	徐馨韬,柴小丽,谢彬,沈晨,王敬平. 基于改进TextRank算法的中文文本摘要提取[J]. 计算机工程, 2019, 45(3): 273-277.
[13]	王劲松,李军燕,张洪玮. 基于IPv6的大规模网络异常流量检测系统设计[J]. 计算机工程, 2018, 44(10): 14-21.
[14]	申兴发,王兰迪. 公共自行车系统的租赁点聚类与功能识别[J]. 计算机工程, 2018, 44(1): 44-50.
[15]	余冲,李晶,孙旭东,傅向华. 基于词嵌入与概率主题模型的社会媒体话题识别[J]. 计算机工程, 2017, 43(12): 184-191.

选择文件类型/文献管理软件名称

选择包含的内容

社会媒体网页内容的分割与抽取

Segmentation and Extraction for Social Media Web Page Content

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

社会媒体网页内容的分割与抽取

Segmentation and Extraction for Social Media Web Page Content

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价