一种基于全Hash的整词二分词典机制

doi:10.3969/j.issn.1000-3428.2011.21.014

计算机工程 ›› 2011, Vol. 37 ›› Issue (21): 40-42. doi: 10.3969/j.issn.1000-3428.2011.21.014

一种基于全Hash的整词二分词典机制

彭焕峰¹，丁宋涛²

(1. 南京工程学院计算机工程学院，南京 211167；2. 南京大学软件学院，南京 210093)

收稿日期:2011-05-16 出版日期:2011-11-05 发布日期:2011-11-05
作者简介:彭焕峰(1978－)，男，讲师、硕士，主研方向：大数据量处理，搜索引擎；丁宋涛，讲师、硕士
基金资助:
南京工程学院科研基金资助项目“基于Lucene的全文搜索引擎研究”(QKJB2009026)

Binary-seek-by-word Dictionary Mechanism Based on All-Hash

PENG Huan-feng¹, DING Song-tao ²

(1. School of Computer Engineering, Nanjing Institute of Technology, Nanjing 211167, China; 2. Software Institute, Nanjing University, Nanjing 210093, China)

Received:2011-05-16 Online:2011-11-05 Published:2011-11-05

摘要/Abstract

摘要： 为提高整词二分词典机制的分词效率，分析现有分词词典机制，提出一种基于全Hash的整词二分词典机制。该机制将首字相同的词条按字数分组，并进行全词Hash，对Hash值相同的词条进行二分查找，从而减少词条匹配的次数。理论分析和实验结果表明，该机制的分词效率较高。

关键词: 中文分词, Hash函数, 整词二分, 逐字二分, 最大匹配

Abstract: According to the low efficiency of the traditional binary-seek-by-word dictionary mechanism for word segmentation, this paper gives a binary-seek-by-word dictionary mechanism for word segmentation based on all-Hash by analyzing many old dictionary mechanisms. The new mechanism divides the dictionary entry into some groups by character number the entry has, it uses the Hash value of word to reduce the number of string finding. Theoretical analysis and experiment results show that the new mechanism improves the efficiency of word segmentation.

Key words: Chinese segmentation, Hash function, binary-seek-by-word, verbatim binary search, maximum match

中图分类号:

TP391.1

彭焕峰, 丁宋涛. 一种基于全Hash的整词二分词典机制[J]. 计算机工程, 2011, 37(21): 40-42.

BANG Huan-Feng, DING Song-Chao. Binary-seek-by-word Dictionary Mechanism Based on All-Hash[J]. Computer Engineering, 2011, 37(21): 40-42.

https://www.ecice06.com/CN/Y2011/V37/I21/40

[1]	王晋涛, 秦昂, 张元, 陈一飞, 王廷凤, 谢承霖, 邹刚. 基于注意力增强与特征融合的中文医学实体识别[J]. 计算机工程, 2024, 50(7): 324-332.
[2]	李宇霞, 孙永奇, 闫茹, 朱卫国. 基于CNN图像识别与语义可靠性的路径搜索方法[J]. 计算机工程, 2021, 47(1): 255-263,274.
[3]	杨康,袁海东,郭渊博. 基于属性加密的二维码分级加密算法[J]. 计算机工程, 2018, 44(6): 136-140.
[4]	麻敏,李志慧,徐廷廷. 可验证的(n,n)门限量子秘密共享方案[J]. 计算机工程, 2017, 43(8): 169-172.
[5]	林意,廖琴枝. 基于无损水印的DICOM文件头信息篡改检测[J]. 计算机工程, 2016, 42(5): 151-155,162.
[6]	张文婷,龙敏. 一种交叉处理的混沌多变量Hash算法构造[J]. 计算机工程, 2015, 41(1): 130-134.
[7]	朱国进,郑宁. 基于自然语言处理的算法知识名称发现[J]. 计算机工程, 2014, 40(12): 126-131.
[8]	牛淑芬, 王彩芬, 杜小妮, 王光玉. 基于同态哈希函数的隐私保护性公钥审计算法[J]. 计算机工程, 2013, 39(6): 210-213,218.
[9]	洪琪, 周琴琴, 王永亮, 陈高峰. 基于Hash函数的MD5算法研究和硬件实现[J]. 计算机工程, 2013, 39(3): 137-141.
[10]	龚高翔, 袁征, 李超. 基于多比特输出点函数混淆器的消息认证码[J]. 计算机工程, 2013, 39(1): 144-148.
[11]	程传鹏?, 齐晖. 文本相似度计算在主观题评分中的应用[J]. 计算机工程, 2012, 38(5): 288-290.
[12]	邹惠, 王建东, 宋超. 加权门限多秘密共享方案[J]. 计算机工程, 2012, 38(3): 148-149,165.
[13]	轩秀巍, 滕建辅, 白煜. 基于二次剩余的增强型RFID认证协议[J]. 计算机工程, 2012, 38(3): 124-125,129.
[14]	毛熠, 陈娜. MD5算法的研究与改进[J]. 计算机工程, 2012, 38(24): 111-114.
[15]	鲁晓彬, 李发达, 田礼, 鲍皖苏. 一种改进的多变量数字签名方案安全性分析[J]. 计算机工程, 2012, 38(22): 95-98.

选择文件类型/文献管理软件名称

选择包含的内容

一种基于全Hash的整词二分词典机制

Binary-seek-by-word Dictionary Mechanism Based on All-Hash

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种基于全Hash的整词二分词典机制

Binary-seek-by-word Dictionary Mechanism Based on All-Hash

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价