基于支持向量数据描述的分布式数据流挖掘

doi:10.3969/j.issn.1000-3428.2012.18.009

计算机工程 ›› 2012, Vol. 38 ›› Issue (18): 34-36. doi: 10.3969/j.issn.1000-3428.2012.18.009

基于支持向量数据描述的分布式数据流挖掘

蔡国祯 ¹，毛国君 ²

(1. 北京工业大学计算机学院，北京 100124；2. 中央财经大学信息学院，北京 100081)

收稿日期:2011-12-15 修回日期:2012-02-07 出版日期:2012-09-20 发布日期:2012-09-18
作者简介:蔡国祯(1985－)，男，硕士研究生，主研方向：数据挖掘；毛国君，教授
基金资助:
国家自然科学基金资助项目(60873145)

Distributed Data Stream Mining Based on Support Vector Data Description

CAI Guo-zhen ¹, MAO Guo-jun ²

(1. College of Computer Science, Beijing University of Technology, Beijing 100124, China;2. School of Information, Central University of Finance and Economics, Beijing 100081, China)

Received:2011-12-15 Revised:2012-02-07 Online:2012-09-20 Published:2012-09-18

摘要/Abstract

摘要： ：针对传统分布式数据流挖掘算法的通信开销较大、分类精度较低的问题，提出一种基于支持向量数据描述的分布式数据流挖掘算法。利用局部站点快速更新数据流信息，采用支持向量机算法学习元级数据并传递到中心站点。中心站点负责接收及合并元级数据，形成全局分类结果。实验结果表明，该算法能在降低局部站点和中心站点网络通信量的同时，获得较高精度的全局分类结果。

关键词: 分布式数据流, 数据挖掘, 支持向量数据描述, 支持向量机, 增量式挖掘

Abstract: In distributed data stream mining, communication loads and global classification accuracy are main problems. In order to solve the problem, this paper presents a distributed data stream mining algorithm based on Support Vector Data Description(SVDD). Local site quickly updates data stream information, gets meta-level data by Support Vector Machine(SVM), and transmits them to central site. Central site receives and combines meta-level data, and learns global classification model. Experimental result shows that the algorithm can reduce transmission between local site and central site, and keep better classification accuracy.

Key words: distributed data stream, data mining, Support Vector Data Description(SVDD), Support Vector Machine(SVM), incremental mining

中图分类号:

TP391

蔡国祯, 毛国君. 基于支持向量数据描述的分布式数据流挖掘[J]. 计算机工程, 2012, 38(18): 34-36.

CA Guo-Zhen, MAO Guo-Jun. Distributed Data Stream Mining Based on Support Vector Data Description[J]. Computer Engineering, 2012, 38(18): 34-36.

http://www.ecice06.com/CN/Y2012/V38/I18/34

[1]	席荣康, 蔡满春, 芦天亮. 基于数据增强与流数据处理的Tor流量分析模型[J]. 计算机工程, 2023, 49(3): 177-184.
[2]	谷青竹, 董红斌. PPDM中面向k-匿名的MI Loss评估模型[J]. 计算机工程, 2022, 48(4): 143-147.
[3]	王志江, 秦品乐, 柴锐, 武峰, 程一彤, 史玥. 基于深度学习的牙齿嵌塞自动判别方法[J]. 计算机工程, 2022, 48(4): 307-313.
[4]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[5]	张攀, 高丰, 周逸, 饶涵宇, 毛冬, 李静. 一种在线实时微服务调用链异常检测方法[J]. 计算机工程, 2022, 48(11): 161-169.
[6]	吴军, 欧阳艾嘉, 张琳. 面向置换检验的冗余对比模式过滤算法[J]. 计算机工程, 2022, 48(1): 75-84.
[7]	吴军, 欧阳艾嘉, 张琳. 面向对比序列模式发现的独立精确置换检验算法[J]. 计算机工程, 2021, 47(8): 45-53,61.
[8]	王海, 翁晨傲, 李克, 骆曦. 一种面向基站扇区方向角估计的改进SVM算法[J]. 计算机工程, 2021, 47(4): 120-126.
[9]	张冰玉, 潘晴, 田妮莉, Everett Xiaolin Wang. 一种基于多重特征融合的信源个数估计方法[J]. 计算机工程, 2021, 47(4): 115-119,126.
[10]	杜诗晴, 王鹏, 汪卫. 一种基于MDL的日志序列模式挖掘算法[J]. 计算机工程, 2021, 47(2): 118-125.
[11]	连晓伟, 马垚, 陈永乐, 张壮壮, 王建华. 基于载荷特征与统计特征的Shodan流量识别[J]. 计算机工程, 2021, 47(1): 117-122.
[12]	魏文浩, 唐泽坤, 刘刚. 基于距离和密度的PBK-means算法[J]. 计算机工程, 2020, 46(9): 68-75.
[13]	袁哲明, 杨晶晶, 陈渊. 基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程, 2020, 46(8): 101-105.
[14]	史明阳, 王鹏, 汪卫. 有监督时间序列分割与状态识别算法[J]. 计算机工程, 2020, 46(5): 131-138.
[15]	付子爔, 徐洋, 吴招娣, 许丹丹, 谢晓尧. 基于增量学习的SVM-KNN网络入侵检测方法[J]. 计算机工程, 2020, 46(4): 115-122.

选择文件类型/文献管理软件名称

选择包含的内容

基于支持向量数据描述的分布式数据流挖掘

Distributed Data Stream Mining Based on Support Vector Data Description

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于支持向量数据描述的分布式数据流挖掘

Distributed Data Stream Mining Based on Support Vector Data Description

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价