%0 Journal Article %A 侯整风 %A 张浩 %A 张娜 %T 基于字频分布的中文网页编码识别算法 %D 2014 %R 10.3969/j.issn.1000-3428.2014.12.037 %J 计算机工程 %P 199-204 %V 40 %N 12 %X 编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。 %U http://www.ecice06.com/CN/10.3969/j.issn.1000-3428.2014.12.037