基于众包的社交网络数据采集模型设计与实现

doi:10.3969/j.issn.1000-3428.2015.04.007

计算机工程

基于众包的社交网络数据采集模型设计与实现

高梦超^1,2,胡庆宝²,程耀东²,周　旭³,李海波²,杜　然²

(1. 四川大学计算机学院,成都610065; 2. 中国科学院高能物理研究所计算中心,北京100049;3. 中国科学院声学研究所,北京100190)

收稿日期:2013-10-06 出版日期:2015-04-15 发布日期:2015-04-15
作者简介:高梦超(1988 - ),男,硕士研究生,主研方向:网络通信,社交网络;胡庆宝,硕士;程耀东、周　旭,副研究员、博士;李海波,助理研究员、博士;杜　然,博士研究生。
基金资助:
国家“863”计划基金资助项目“基于媒体大数据的大众信息消费服务平台及应用示范”(SS2014AA012305)。

Design and Implementation of Crowdsourcing-based Social Network Data Collection Model

GAO Mengchao ^1,2,HU Qingbao ²,CHENG Yaodong ²,ZHOU Xu ³,LI Haibo²,DU Ran ²

(1. College of Computer Science,Sichuan University,Chengdu 610065,China;2. Computing Center,Institute of High Energy Physcics,Chinese Academy of Sciences,Beijing 100049,China;3. Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)

Received:2013-10-06 Online:2015-04-15 Published:2015-04-15

摘要/Abstract

摘要： 社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C / S 架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web 爬虫系统4 个模块。通过主题Deep Web 爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop 分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web 爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。

关键词: 社交网络, 众包模式, 分布式计算, 信息采集, Web 爬虫, Hadoop 分布式文件系统

Abstract: Social network data has the features of informative and strong topicality with significant value for data mining,and it is also a very important part of the Internet big data. However,traditional search engines can not use the keywords retrieve technology to index the information of social network platform directly,and under such circumstances, this paper designs and implements a data collection model based on crowdsourcing mode and C / S architecture. The model consists of four modules including server,client,storage sub-system and a Deep Web crawler system. The nodes run the topic Deep Web crawler system to request new tasks automatically and upload the acquired data,meanwhile the system uses the Hadoop Distributed File System(HDFS) to process data rapidly and store results. The topic Deep Web crawler system has the features of easyconfiguration,flexible scalability and direct data collection,and it also proves that data collection model is able to fulfill the tasks in a high success rate and collect data in an efficient way.

Key words: social network, crowdsourcing mode, distributed computing, information collection, Web crawler, Hadoop Distributed File System(HDFS)

中图分类号:

TP311

高梦超,胡庆宝,程耀东,周旭,李海波,杜然. 基于众包的社交网络数据采集模型设计与实现[J]. 计算机工程.

GAO Mengchao,HU Qingbao,CHENG Yaodong,ZHOU Xu,LI Haibo,DU Ran. Design and Implementation of Crowdsourcing-based Social Network Data Collection Model[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2015/V41/I4/36

[1]	钱榕, 李鑫, 刘晓豫, 张克君, 郭竞桧, 叶仲昆. 考虑禁言机制的谣言传播模型[J]. 计算机工程, 2024, 50(8): 372-378.
[2]	周春良, 刘仰光, 孟祥佩. 基于贝叶斯衍生分类器的社交网络用户影响力评价模型[J]. 计算机工程, 2024, 50(6): 394-400.
[3]	吴海鹏, 钱育蓉, 冷洪勇. 基于双向注意力机制的多模态关系抽取[J]. 计算机工程, 2024, 50(4): 160-167.
[4]	李政学, 李枝名, 彭德中, 陈杰. 基于特征对比学习和图卷积的社交网络用户分类[J]. 计算机工程, 2024, 50(4): 258-266.
[5]	马超, 宋琛. 计及电力数据安全的智能合约上链方法及防篡改技术研究[J]. 计算机工程, 2024, 50(10): 240-254.
[6]	谢柏林, 黎琦, 魏娜, 邝建. 基于用户行为的社交网络人格特质识别方法[J]. 计算机工程, 2023, 49(1): 279-286,294.
[7]	朱黎明, 丁晓波, 龚国强. 图数据连续发布中的隐私保护方法[J]. 计算机工程, 2022, 48(5): 154-161.
[8]	郭奉琦, 孟凡荣, 王志晓. 基于变分自编码器的谣言立场分类算法[J]. 计算机工程, 2022, 48(2): 99-105.
[9]	孙飞翔, 陈卫东, 林天森. 影响最大化问题中基于K-truss的投票改进算法[J]. 计算机工程, 2022, 48(11): 291-298.
[10]	邓心惠, 宾晟, 孙更新. 基于反向可达集的影响力最大化算法[J]. 计算机工程, 2022, 48(1): 60-68,74.
[11]	李有红, 王学军, 谌裕勇, 赵跃龙, 徐文贤. 一种融合邻边属性的个人社交网络社区发现算法[J]. 计算机工程, 2021, 47(7): 81-87.
[12]	杨艳丽, 宋礼鹏. 融合社交网络威胁的攻击图生成方法[J]. 计算机工程, 2021, 47(5): 104-116.
[13]	刘阳, 高世国. 基于随机模型检验的社交网络隐私保护研究[J]. 计算机工程, 2021, 47(5): 144-153.
[14]	张基, 谢在鹏, 毛莺池, 徐媛媛, 朱晓瑞, 李博文. MapReduce框架下结合分布式编码计算的容错算法[J]. 计算机工程, 2021, 47(4): 173-179.
[15]	尹月双, 孙艳红, 刘勇. 一种基于邻居结构的影响传播模型[J]. 计算机工程, 2021, 47(3): 117-124,130.

选择文件类型/文献管理软件名称

选择包含的内容

基于众包的社交网络数据采集模型设计与实现

Design and Implementation of Crowdsourcing-based Social Network Data Collection Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于众包的社交网络数据采集模型设计与实现

Design and Implementation of Crowdsourcing-based Social Network Data Collection Model

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价