基于Base64编码的垃圾图片过滤方法

doi:10.3969/j.issn.1000-3428.2011.08.067

计算机工程 ›› 2011, Vol. 37 ›› Issue (8): 194-196. doi: 10.3969/j.issn.1000-3428.2011.08.067

基于Base64编码的垃圾图片过滤方法

陈雅芳，徐从富

(浙江大学人工智能研究所，杭州 310027)

出版日期:2011-04-20 发布日期:2012-10-31
作者简介:陈雅芳(1986－)，女，硕士研究生，主研方向：垃圾图片过滤，机器学习；徐从富，副教授、博士
基金资助:
国家自然科学基金资助项目(60970081)；国家“863”计划基金资助项目(2007AA01Z197)

Image Spam Filtering Method Based on Base64 Encoding

CHEN Ya-fang, XU Cong-fu

(Institute of Artificial Intelligence, Zhejiang University, Hangzhou 310027, China)

Online:2011-04-20 Published:2012-10-31

摘要/Abstract

摘要： 针对目前直接提取图片文本特征费时且分类准确率不高，以及使用图像属性特征过滤垃圾图片召回率低下等问题，提出一种快速有效的垃圾图片过滤方法。在使用4-gram切分Base64编码后的图片文本后，通过Binary特征将图片特征项表示为Binary向量，并训练支出向量机分类器来识别垃圾图片。实验结果表明，该方法不仅能够识别不同格式的垃圾图片，而且垃圾图片识别精确率、召回率和F1值分别可达99.85%、99.49%和99.67%。

关键词: 垃圾图片, Base64编码, 4-gram分词, 支持向量机

Abstract: Extracting embedded text from images to filter image spam is usually time-consuming and can not reach high classification accuracy. On the other hand, filtering image spam using image properties features has low recall rates problem. This paper proposes a simple but effective method to detect image spam. By tokenizing Base64-encoded image text into a series of 4-gram features and representing them as a binary vector, a trained Support Vector Machine(SVM) can distinguish spam images from legitimate ones very well. Experimental results show that the method achieves satisfactory performance in filtering image spam with different formats, with the precision, recall and F1 of 99.85%, 99.49% and 99.67% respectively.

Key words: image spam, Base64 encoding, 4-gram, Support Vector Machine(SVM)

中图分类号:

TP18

陈雅芳, 徐从富. 基于Base64编码的垃圾图片过滤方法[J]. 计算机工程, 2011, 37(8): 194-196.

CHEN Ya-Fang, XU Cong-Fu. Image Spam Filtering Method Based on Base64 Encoding[J]. Computer Engineering, 2011, 37(8): 194-196.

http://www.ecice06.com/CN/Y2011/V37/I8/194

[1]	王志江, 秦品乐, 柴锐, 武峰, 程一彤, 史玥. 基于深度学习的牙齿嵌塞自动判别方法[J]. 计算机工程, 2022, 48(4): 307-313.
[2]	王海, 翁晨傲, 李克, 骆曦. 一种面向基站扇区方向角估计的改进SVM算法[J]. 计算机工程, 2021, 47(4): 120-126.
[3]	张冰玉, 潘晴, 田妮莉, Everett Xiaolin Wang. 一种基于多重特征融合的信源个数估计方法[J]. 计算机工程, 2021, 47(4): 115-119,126.
[4]	连晓伟, 马垚, 陈永乐, 张壮壮, 王建华. 基于载荷特征与统计特征的Shodan流量识别[J]. 计算机工程, 2021, 47(1): 117-122.
[5]	袁哲明, 杨晶晶, 陈渊. 基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程, 2020, 46(8): 101-105.
[6]	付子爔, 徐洋, 吴招娣, 许丹丹, 谢晓尧. 基于增量学习的SVM-KNN网络入侵检测方法[J]. 计算机工程, 2020, 46(4): 115-122.
[7]	张瑞, 陈红卫. 基于特征优化与SVPSO的工控入侵检测[J]. 计算机工程, 2020, 46(4): 19-25.
[8]	鲁淑霞, 蔡莲香, 张罗幻. 基于动量加速零阶减小方差的鲁棒支持向量机[J]. 计算机工程, 2020, 46(12): 88-95,104.
[9]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.
[10]	周梦妮, 牛焱, 曹锐, 阎鹏飞, 相洁. 基于相位同步的癫痫信号识别与分析[J]. 计算机工程, 2019, 45(7): 291-295,302.
[11]	易国洪,代瑜,冯智莉,黎慧源. 基于SVM与DOM重心半径模型的Web正文提取[J]. 计算机工程, 2019, 45(6): 206-210.
[12]	苗续芝,陈伟,毕方明,房卫东,张武雄. 基于改进FOA-SVM的矿井火灾图像识别[J]. 计算机工程, 2019, 45(4): 267-274.
[13]	张裕平, 龚晓峰, 雒瑞森. 基于稀疏化双向二维主成分分析的人脸识别[J]. 计算机工程, 2019, 45(12): 232-236.
[14]	胡畔, 乔林, 徐立波, 于元旗, 韩永辉. 基于特定目标提议框的自适应跟踪算法[J]. 计算机工程, 2019, 45(11): 269-274.
[15]	池亚平, 凌志婷, 王志强, 杨建喜. 基于支持向量机与Adaboost的入侵检测系统[J]. 计算机工程, 2019, 45(10): 183-188,202.

选择文件类型/文献管理软件名称

选择包含的内容

基于Base64编码的垃圾图片过滤方法

Image Spam Filtering Method Based on Base64 Encoding

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Base64编码的垃圾图片过滤方法

Image Spam Filtering Method Based on Base64 Encoding

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价