基于统计和规则的未登录词识别方法研究

doi:10.3969/j.issn.1000-3428.2007.08.069

计算机工程 ›› 2007, Vol. 33 ›› Issue (08): 196-198. doi: 10.3969/j.issn.1000-3428.2007.08.069

基于统计和规则的未登录词识别方法研究

周蕾1，朱巧明2

（1. 常熟理工学院计算机科学与工程系，常熟 215500；2. 苏州大学计算机科学和技术学院，苏州 215006）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-04-20 发布日期:2007-04-20

Research on Recognition Method of Unknown Chinese Words
Based on Statistic and Regulation

ZHOU Lei 1, ZHU Qiaoming 2

(1. Department of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500; 2. School of Computer Science and Technology, Suzhou University, Suzhou 215006）

Received:1900-01-01 Revised:1900-01-01 Online:2007-04-20 Published:2007-04-20

摘要/Abstract

摘要： 介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤：(1)对文本进行分词，对分词结果中的碎片进行全切分生成临时词典，并利用规则和频度信息给临时词典中的每个字串赋权值，利用贪心算法获得每个碎片的最长路径，从而提取未登录词；(2)在上一步骤的基础上，建立二元模型，并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%，召回率达到82.38%。

关键词: 未登录词识别, 贪心算法, 二元模型, 互信息

Abstract: This paper introduces a method to extract unknown Chinese words based on statistic and regulation. The process comprises two parts: (1) It segments the full text and combines the adjacent single Chinese character to short strings (fragments), then uses full-segmentation method to divide each fragment into strings, and each string is assigned a term weighted by rules and frequency. It uses the greedy algorithm to get the longest path of each fragment; every string except single character in this path is an unknown word. (2)It builds a bi-gram model and uses mutual information to combine some adjacent words to unknown words. The precision on the open test sets is 81.25% and recall is 82.38%.

Key words: Unknown Chinese words recognition, Greedy algorithm, Bi-gram model, Mutual information

中图分类号:

TP18

周蕾;朱巧明. 基于统计和规则的未登录词识别方法研究[J]. 计算机工程, 2007, 33(08): 196-198.

ZHOU Lei ; ZHU Qiaoming. Research on Recognition Method of Unknown Chinese Words
Based on Statistic and Regulation
[J]. Computer Engineering, 2007, 33(08): 196-198.

http://www.ecice06.com/CN/Y2007/V33/I08/196

[1]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[2]	杨璇, 马建敏, 赵曼君. 基于邻域互信息的高维时序数据特征选择[J]. 计算机工程, 2023, 49(7): 135-142.
[3]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[4]	缪欣, 陈璇, 鲍红莹, 张静轩, 余炜. 移动传感器网络中路径扫描覆盖问题研究[J]. 计算机工程, 2022, 48(12): 150-155,164.
[5]	刘迪洋, 张震, 张进. 基于社区结构的复杂网络鲁棒性优化策略[J]. 计算机工程, 2021, 47(8): 84-92.
[6]	杨奔, 王炜晔, 赵婉婷, 谢瑾奎. 基于DQN的动态深度多分支搜索自动配载算法[J]. 计算机工程, 2020, 46(8): 313-320.
[7]	韩舒艳, 努尔买买提·黑力力. 选择性隐藏树型访问结构的CP-ABE方案[J]. 计算机工程, 2020, 46(7): 150-158.
[8]	刘洁, 王铮, 王辉. 基于IMI-WNB算法的垃圾邮件过滤技术研究[J]. 计算机工程, 2020, 46(12): 299-304,312.
[9]	曹浩哲,张鹏,卢暾,顾寒苏,顾宁. 基于传感器距离的实时用户活动识别建模方法[J]. 计算机工程, 2019, 45(2): 1-6.
[10]	邱宁佳,李娜,胡小娟,王鹏,孙爽滋. 基于粒子群优化的朴素贝叶斯改进算法[J]. 计算机工程, 2018, 44(11): 27-32,39.
[11]	石立鹏,王莉. 基于遍历约束与交互信息增强的社交网络表征算法[J]. 计算机工程, 2018, 44(11): 215-221.
[12]	包义钊,殷保群,曹杰,姚进发. 基于飞蛾-烛火优化算法的贝叶斯网络结构学习[J]. 计算机工程, 2018, 44(1): 187-192.
[13]	郑金金,罗志年. LTE-A系统载波聚合下基于贪心算法的资源管理[J]. 计算机工程, 2017, 43(11): 50-54.
[14]	吕天航,刘勤让,赵博. 基于贪心算法的3D-Mesh片上网络层间互联结构[J]. 计算机工程, 2016, 42(9): 52-57.
[15]	魏浩,陈华锋,陈军. 基于路径覆盖的城市监控摄像网络优化部署方法[J]. 计算机工程, 2016, 42(5): 269-274.

选择文件类型/文献管理软件名称

选择包含的内容

基于统计和规则的未登录词识别方法研究

Research on Recognition Method of Unknown Chinese Words
Based on Statistic and Regulation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于统计和规则的未登录词识别方法研究

Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

Research on Recognition Method of Unknown Chinese Words
Based on Statistic and Regulation