中文分词和词性标注模型

doi:10.3969/j.issn.1000-3428.2010.04.006

计算机工程 ›› 2010, Vol. 36 ›› Issue (4): 17-19.

中文分词和词性标注模型

刘遥峰，王志良，王传经

(北京科技大学信息工程学院，北京 100083)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-02-20 发布日期:2010-02-20

Model of Chinese Words Segmentation and Part-of-Word Tagging

LIU Yao-feng, WANG Zhi-liang, WANG Chuan-jing

(School of Information Engineering, University of Science & Technology Beijing, Beijing 100083)

Received:1900-01-01 Revised:1900-01-01 Online:2010-02-20 Published:2010-02-20

摘要/Abstract

摘要： 构造一种中文分词和词性标注的模型，在分词阶段确定N个最佳结果作为候选集，通过未登录词识别和词性标注，从候选结果集中选优得到最终结果，并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明，该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%，证明了该方法的有效性。

关键词: 分词, 词性标注, 最短路径

Abstract: This paper proposes a model of Chinese words segmentation and part-of-word tagging. In the words segmentation stage, the top N segmentation results are confirmed as the candidate. The final result among these candidates is gotten after unknown words recognition and part-of- word tagging. A Chinese lexical analyzer is developed. This model with different size of training set is tested. The lexical analyzer’s accuracy of words segmentation and part-of-word is 98.34% and 96.07%. This proves the effectiveness of the method.

Key words: words segmentation, part-of-word tagging, shortest path

中图分类号:

TP18

刘遥峰;王志良;王传经. 中文分词和词性标注模型[J]. 计算机工程, 2010, 36(4): 17-19.

LIU Yao-feng; WANG Zhi-liang; WANG Chuan-jing. Model of Chinese Words Segmentation and Part-of-Word Tagging[J]. Computer Engineering, 2010, 36(4): 17-19.

https://www.ecice06.com/CN/Y2010/V36/I4/17

[1]	王晋涛, 秦昂, 张元, 陈一飞, 王廷凤, 谢承霖, 邹刚. 基于注意力增强与特征融合的中文医学实体识别[J]. 计算机工程, 2024, 50(7): 324-332.
[2]	宋旭晖, 于洪涛, 李邵梅. 基于图注意力网络字词融合的中文命名实体识别[J]. 计算机工程, 2022, 48(10): 298-305.
[3]	李宇霞, 孙永奇, 闫茹, 朱卫国. 基于CNN图像识别与语义可靠性的路径搜索方法[J]. 计算机工程, 2021, 47(1): 255-263,274.
[4]	朱江, 包崇明, 王崇云, 周丽华, 孔兵. 基于图结构特征分析的Top-k结构洞发现算法[J]. 计算机工程, 2020, 46(5): 94-101,108.
[5]	赵季红, 吴豆豆, 曲桦, 季文君. 面向物联网的能耗感知虚拟网络映射算法[J]. 计算机工程, 2020, 46(5): 19-25,33.
[6]	唐素勤, 孙亚茹, 李志欣, 张灿龙. 基于强化学习的壮语词性标注[J]. 计算机工程, 2020, 46(4): 309-315.
[7]	李嘉伟, 张激, 赵俊才, 丁如艺. 一种SRIO网络负载均衡最短路径路由算法[J]. 计算机工程, 2020, 46(3): 214-221,228.
[8]	耿海军,尹霞. 一种基于iSPF的下游路径规则实现方法[J]. 计算机工程, 2019, 45(6): 103-107,114.
[9]	王丹,龙士工. 权重社交网络隐私保护中的差分隐私算法[J]. 计算机工程, 2019, 45(4): 114-118.
[10]	赵季红,蔡田杰,曲桦,赵建龙,罗金. SDN中应用网络分区的控制器部署策略[J]. 计算机工程, 2019, 45(1): 73-77.
[11]	唐继孟,孙全欣,杜鹏,陈志杰. 基于标记边的城市轨道交通网络KSP算法[J]. 计算机工程, 2019, 45(1): 292-296,302.
[12]	付饶,孟凡荣,邢艳. 基于节点重要性与相似性的重叠社区发现算法[J]. 计算机工程, 2018, 44(9): 192-198.
[13]	张懿,禹忠,王军选. 基于OpenFlow的控制器部署可靠性方案设计[J]. 计算机工程, 2018, 44(8): 74-78.
[14]	高斐,陈德礼,洪家军,于智,田甜. 基于k最短路径算法优化与负载均衡的虚拟网络映射机制[J]. 计算机工程, 2018, 44(5): 146-154.
[15]	刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林. 基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程, 2017, 43(7): 211-216.

选择文件类型/文献管理软件名称

选择包含的内容

中文分词和词性标注模型

Model of Chinese Words Segmentation and Part-of-Word Tagging

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

中文分词和词性标注模型

Model of Chinese Words Segmentation and Part-of-Word Tagging

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价