基于通用后缀树模型的垃圾邮件过滤方法

计算机工程 ›› 2007, Vol. 33 ›› Issue (09): 100-102.

基于通用后缀树模型的垃圾邮件过滤方法

谭建龙，张吉，郭莉

(中国科学院计算技术研究所软件室，北京 100085)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-05-05 发布日期:2007-05-05

Method of Spam Filtering Based on General Suffix Tree Model

TAN Jianlong, ZHANG Ji, GUO Li

(Software Division, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100085)

Received:1900-01-01 Revised:1900-01-01 Online:2007-05-05 Published:2007-05-05

摘要/Abstract

摘要： 采用通用后缀树模型(GSTM)，利用邮件内容的上下文信息，进行每个文本位置的不定长多元统计，从而获得被测邮件与不同训练集的相似程度，确定邮件所属的类别。理论分析和实验表明，在相同语料上，该方法的精确度和召回率均达到或超过了基于向量空间模型的邮件过滤方法；对于长度为N的邮件，过滤时间为O(N)；长度为N的新邮件加入训练集，训练时间为O(N)，满足了训练集的动态增长；该方法不需进行分词处理，完全独立于语种，适用于多语种邮件同时存在的情况。

关键词: 文本分类, 垃圾邮件, 通用后缀树

Abstract: The paper proposes a method of spam filtering based on content. It adopts general suffix tree model(GSTM), takes advantage of context location, and does string match of unfixed length, then computes the similarity between test mail and the corpus to determine the sort of E-mail. The experiments and analyses prove that the method is better than other methods based on vector space model(VSM) in both accuracy and recall when tested on the same corpus. The avoidance of word segmentation shows that the categorizing process is irrelevant with the concrete language and is a language independent method.

Key words: Text classify, Spam, General suffix tree

中图分类号:

TP393

谭建龙;张吉;郭莉. 基于通用后缀树模型的垃圾邮件过滤方法[J]. 计算机工程, 2007, 33(09): 100-102.

TAN Jianlong; ZHANG Ji; GUO Li. Method of Spam Filtering Based on General Suffix Tree Model[J]. Computer Engineering, 2007, 33(09): 100-102.

[1]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[2]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[3]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[4]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[5]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[6]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[7]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[8]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.
[9]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.
[10]	段丹丹, 唐加山, 温勇, 袁克海. 基于BERT模型的中文短文本分类算法[J]. 计算机工程, 2021, 47(1): 79-86.
[11]	丁辰晖, 夏鸿斌, 刘渊. 融合知识图谱与注意力机制的短文本分类模型[J]. 计算机工程, 2021, 47(1): 94-100.
[12]	方瑞, 于俊洋, 董李锋. 基于特征矩阵构造与BP神经网络的垃圾文本过滤模型[J]. 计算机工程, 2020, 46(8): 271-276.
[13]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[14]	康雁, 杨其越, 李浩, 梁文韬, 李晋源, 崔国荣, 王沛尧. 基于主题相似性聚类的自适应文本分类[J]. 计算机工程, 2020, 46(3): 93-98.
[15]	王芝辉, 王晓东. 基于神经网络的文本分类方法研究[J]. 计算机工程, 2020, 46(3): 11-17.

选择文件类型/文献管理软件名称

选择包含的内容