基于文本内容的敏感词决策树信息过滤算法

doi:10.3969/j.issn.1000-3428.2014.09.060

计算机工程

基于文本内容的敏感词决策树信息过滤算法

邓一贵^a,伍玉英^b

(重庆大学a. 信息与网络管理中心;b. 计算机学院,重庆400030)

收稿日期:2013-08-21 出版日期:2014-09-15 发布日期:2014-09-12
作者简介:邓一贵(1971 - ),男,高级工程师、博士,主研方向:信息安全;伍玉英,硕士研究生。

Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree

DENG Yi-gui^a ,WU Yu-ying^b

(a. Information and Campus Network Management Center;b. School of Computer Science,Chongqing University,Chongqing 400030,China)

Received:2013-08-21 Online:2014-09-15 Published:2014-09-12

摘要/Abstract

摘要： 随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全健康的网络环境。为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。该算法不依赖词典与分词,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本。实验结果表明,SWDT-IFA 算法具有较高的查准率和查全率,且执行时间能够满足当前网络环境的实时性要求。

关键词: 文本过滤, 敏感级别, 决策树, 分流, 词频

Abstract: With the development of Internet,many negative effects come out as the exponential growth of various information resources,which means that a more secure and healthy network environment should be constructed right now.In order to solve this problem,this paper proposes a Sensitive Word Decision Tree for Information Filtering Algorithm (SWDT-IFA) for content-based Web pages. The algorithm takes no consideration of dictionary and word segmentation, builds the foundation on the sensitive words decision tree,lets the web text retrieval decision tree in form of data stream, records word frequency,regional information and sensitive level,and calculates the sensitive degree of the text to filter the sensitivity. Experimental results show that the SWDT-IFA algorithm has precision ratio and recall ratio,and low time complexity which can require the real-time demand of network environment.

Key words: text filtering, sensitive level, decision tree, distributary, word frequency

中图分类号:

TP393

邓一贵,伍玉英. 基于文本内容的敏感词决策树信息过滤算法[J]. 计算机工程.

DENG Yi-gui,WU Yu-ying. Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree[J]. Computer Engineering.

https://www.ecice06.com/CN/Y2014/V40/I9/300

[1]	翟洁, 李艳豪, 李彬彬, 郭卫斌. 基于大语言模型的个性化实验报告评语自动生成与应用[J]. 计算机工程, 2024, 50(7): 42-52.
[2]	谢兆贤, 邹兴敏, 张文静. 面向大型数据集的高效决策树参数剪枝算法[J]. 计算机工程, 2024, 50(1): 156-165.
[3]	王博, 张远, 杨咏蓓. 基于模仿学习的决策树码率自适应算法研究[J]. 计算机工程, 2023, 49(5): 206-214.
[4]	林洪秀, 邢长友, 詹熙. 对抗多模式网络层析成像的拓扑混淆机制[J]. 计算机工程, 2023, 49(12): 282-293, 303.
[5]	蓝峥杰, 王烈, 聂雄. 一种基于词频‐逆文档频率和混合损失的表情识别算法[J]. 计算机工程, 2023, 49(1): 295-302,310.
[6]	甘红楠, 张凯. 参数自适应下基于近邻图的近似最近邻搜索[J]. 计算机工程, 2022, 48(9): 28-36.
[7]	冉懿, 王润年, 潘红伟, 俞海猛, 袁培森. 面向停电分类预测的因子分解机模型[J]. 计算机工程, 2022, 48(5): 98-103,111.
[8]	常硕, 张彦春. 基于袋外预测和扩展空间的随机森林改进算法[J]. 计算机工程, 2022, 48(3): 1-9.
[9]	李莉, 任振康, 石可欣. 代价敏感的Boosting软件缺陷预测方法[J]. 计算机工程, 2022, 48(3): 175-180.
[10]	纪文桃, 李媛媛, 秦宝东. 基于决策树的SM4分组密码工作模式识别[J]. 计算机工程, 2021, 47(8): 157-161,169.
[11]	石彩霞, 李书琴, 刘斌. 多重检验加权融合的短文本相似度计算方法[J]. 计算机工程, 2021, 47(2): 95-102.
[12]	方瑞, 于俊洋, 董李锋. 基于特征矩阵构造与BP神经网络的垃圾文本过滤模型[J]. 计算机工程, 2020, 46(8): 271-276.
[13]	何发镁, 马慧珍, 王旭仁, 冯安然. 基于特征分组聚类的异常入侵检测系统研究[J]. 计算机工程, 2020, 46(4): 123-128,134.
[14]	张月平, 李茹, 王元龙, 柴清华, 武宇娟, 关勇. 汉语语篇零形式识别与填充方法研究[J]. 计算机工程, 2020, 46(3): 79-86.
[15]	李杨, 陈子彬, 谢光强. 一种基于ExtraTrees的差分隐私保护算法[J]. 计算机工程, 2020, 46(2): 134-140.

选择文件类型/文献管理软件名称

选择包含的内容

基于文本内容的敏感词决策树信息过滤算法

Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于文本内容的敏感词决策树信息过滤算法

Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价