基于字频分布的中文网页编码识别算法

doi:10.3969/j.issn.1000-3428.2014.12.037

计算机工程 ›› 2014, Vol. 40 ›› Issue (12): 199-204.

基于字频分布的中文网页编码识别算法

侯整风¹,张浩¹,张娜²

1.合肥工业大学计算机与信息学院,合肥 230009; 2.安徽移动淮南分公司,安徽淮南 232001

收稿日期:2013-12-05 修回日期:2014-01-22 出版日期:2014-12-15 发布日期:2015-01-16
作者简介:侯整风(1958-),男,教授,主研方向:网络信息安全;张浩、张娜,硕士研究生。
基金资助:
教育部广东省产学研基金资助项目(2009B090200049)。

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

HOU Zhengfeng¹,ZHANG Hao¹,ZHANG Na²

1.School of Computer & Information,Hefei University of Technology,Hefei 230009,China;
2.Huainan Branch of Anhui Mobile Limited,Huainan 232001,China

Received:2013-12-05 Revised:2014-01-22 Online:2014-12-15 Published:2015-01-16

摘要/Abstract

摘要： 编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。

关键词: 中文编码, 网页过滤, 高频字符, 模式匹配, 有限状态自动机

Abstract: Web coding identification is the premise of webpage content filtering,and coexistence of a variety of Chinese encoding makes Chinese webpage coded identification inconvenient.This paper presents a Chinese Web encoding identification algorithm——FKI(Frequency Keyword Identification) which is based on the frequency of Chinese character used.FKI selects the frequency of high character to construct high frequency character encoding tables,according to the frequency of the use of Chinese characters.Using high frequency character encoding as a keyword,FKI algorithm scans the Webpage by improved pattern matching algorithm,statistical matching number,and determines the real code of webpage based on the matching result.Experimental results show that,compared with the Unigram algorithm,this algorithm has a higher recognition rate.FKI algorithm is suitable for Chinese webpage which is unknown code to identify code quickly and accurately.

Key words: Chinese encoding, Web filtering, high frequency characters, pattern matching, finite state automata

中图分类号:

TP18

侯整风,张浩,张娜. 基于字频分布的中文网页编码识别算法[J]. 计算机工程, 2014, 40(12): 199-204.

HOU Zhengfeng,ZHANG Hao,ZHANG Na. Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution[J]. Computer Engineering, 2014, 40(12): 199-204.

https://www.ecice06.com/CN/Y2014/V40/I12/199

参考文献

[1] 国家标准总局.GB2312-1980信息交换用汉字编码字符集基本集[S].1980.
[2] 国家标准总局.GB13000.1-1993汉字扩展内码规范[S].1993.
[3] Unicode Consortium.The Unicode Standard Version 4.0[M].[S.l.]:Addison-wesely,2003.
[4] International Organization for Standardization.ISO/IEC 10646-1:1993(E)/10646-1:2000(E)/10646-2:2001(E) Universal Multiple-octet Coded Character Set (UCS) [S].2001.
[5] 李培峰,朱巧明,钱培德.多文种环境下汉字内码识别算法的研究[J].中文信息学报,2004,18(2):73-79.
[6] 于明俭.GB/BIG5文件识别[EB/OL].(2012-10-20).http://www.ibiblio.org/pub/packages/ccic/software/data/chrecog.gb.html.
[7] 贺敏,张华平,程学旗.基于贝叶斯分类的汉字编码识别方法[C]//第九届计算机科学与技术研究生研讨会论文集.青岛:[出版者不详],2006:1067-1073.
[8] 李继峰,刘群.基于N-Gram模型的汉字高速编码识别系统[J].计算机工程与应用,2004,40(3):73-79.
[9] 王昊,李思舒,邓三鸿.基于N-gram的文本语种识别研究[J].现代图书情报技术,2013,(4):54-61.
[10] He Gang,Peng Peidong,WuXiaochun,et al.Chinese Coding Type Identification Based on Subsentence Length Observation[C]//Proceedings of 2009 IEEE Inter-national Conference on Natural Language Processing and Knowledge Engineering.Dalian,China:[s.n.],2009:1-5.
[11] 陈一凡,朱亮.21世纪初汉语字、词流通频度统计[C]//第一届汉字输入技术与应用研讨会论文集.北京:[出版者不详],2002.
[12] 《现代汉语常用词表》课题组.现代汉语常用词表(草案)[M].北京:商务印书馆,2008.
[13] Aho A,Corasick M.Efficient String Matching:An Aid to Bibliographic Search[J].Communications of the ACM,1975,18(6):333-343.
[14] 沈洲,王永成,刘功申.改进的中文字符多模式匹配算法[J].情报学报,2002,21(1):27-32.

[1]	闫茹, 孙永奇, 朱卫国, 李宇霞. 基于CNN与有限状态自动机的手写体大写金额识别[J]. 计算机工程, 2021, 47(9): 304-312.
[2]	刘治国, 宋广跃, 蔡文珠, 刘庆利. 基于TextRank算法的未知网络协议帧定位方法[J]. 计算机工程, 2020, 46(7): 179-184.
[3]	樊子华,常朝稳,韩培胜,潘冬存. 基于Rete算法的攻击图构建方法[J]. 计算机工程, 2018, 44(3): 151-155,165.
[4]	胡鹏,沈建京,陶林波. 语用层次仿真组件组合性质分析[J]. 计算机工程, 2016, 42(2): 293-299.
[5]	金戈,薛质,齐开悦. 主引导记录型Rootkit建模及其静态检测方法[J]. 计算机工程, 2015, 41(7): 184-189.
[6]	吴旭婧,许勇,张亚楠. 基于指纹模式匹配的无线传感器网络密钥预分配方案[J]. 计算机工程, 2015, 41(3): 106-109.
[7]	张志昌,陈松毅,刘鑫,马慧芳. 结合语境与布朗聚类特征的上下位关系验证[J]. 计算机工程, 2015, 41(2): 145-150.
[8]	陈伟,滕宏舜. 基于BM窗口竞争的高效单模式匹配算法[J]. 计算机工程, 2015, 41(12): 144-149.
[9]	刘春晖,黄宇,宋琦. 一种改进的AC多模式匹配算法[J]. 计算机工程, 2015, 41(10): 280-285.
[10]	伊力亚尔·达吾提,哈力旦·阿布都热依木,杨娜娜. 面向维吾尔文的多模式匹配算法研究[J]. 计算机工程, 2015, 41(1): 143-149.
[11]	王震，李仁发，李彦彪，田峥. 一种并行中英文混合多模式匹配算法[J]. 计算机工程, 2014, 40(4): 318-320.
[12]	王艳霞，江艳霞，王亚刚，李烨. BMH2C单模匹配算法的研究与改进[J]. 计算机工程, 2014, 40(3): 298-302.
[13]	许家铭，李晓东，金键，马盈. 一种高效的多模式字符串匹配算法[J]. 计算机工程, 2014, 40(3): 315-320.
[14]	宋晖，史南胜. 基于模式匹配与半监督学习的评价对象抽取[J]. 计算机工程, 2013, 39(10): 221-226.
[15]	付思源, 刘功申, 李建华. 基于UEFI固件的恶意代码防范技术研究[J]. 计算机工程, 2012, 38(9): 117-120.

选择文件类型/文献管理软件名称

选择包含的内容

基于字频分布的中文网页编码识别算法

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于字频分布的中文网页编码识别算法

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价