基于最大熵的维吾尔语句子边界识别模型

doi:10.3969/j.issn.1000-3428.2010.06.008

计算机工程 ›› 2010, Vol. 36 ›› Issue (06): 24-26. doi: 10.3969/j.issn.1000-3428.2010.06.008

基于最大熵的维吾尔语句子边界识别模型

艾山•吾买尔，吐尔根•依步拉音

(新疆大学信息科学与工程学院，乌鲁木齐 830046)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-03-20 发布日期:2010-03-20

Uyghur Sentence Boundary Identification Model Based on Maximum Entropy

Aishan WUMAIER, Tuergen YIBULAYIN

(College of Information Science & Engineering, Xinjiang University, Urumqi 830046)

Received:1900-01-01 Revised:1900-01-01 Online:2010-03-20 Published:2010-03-20

摘要/Abstract

摘要： 采用最大熵模型实现维吾尔语句子边界识别，该模型的训练过程不需要提供手工收集规则、词性标注及形态分析，仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板，在特征空间上组合出不同特征模板进行测试。实验结果表明，最佳特征模板具有较强的鲁棒性，召回率可达97.72%。

关键词: 维吾尔语, 句子边界识别, 特征选择, 最大熵

Abstract: The Maximum Entropy(ME) model is used to detect Uyghur sentence boundary. The training procedure does not require hand-crafted rules, part-of-speech tags, or morphological information, but uses readily available features, such as word length and syllable. To determine the best feature set, tests are performed on the different combinations of features. Experimental results show the best feature set is quite robust, and achieves recall of 97.72%.

Key words: Uyghur, sentence boundary identification, feature selection, Maximum Entropy(ME)

中图分类号:

N945.12

艾山;吾买尔;吐尔根;依步拉音. 基于最大熵的维吾尔语句子边界识别模型[J]. 计算机工程, 2010, 36(06): 24-26.

Aishan WUMAIER; Tuergen YIBULAYIN. Uyghur Sentence Boundary Identification Model Based on Maximum Entropy[J]. Computer Engineering, 2010, 36(06): 24-26.

http://www.ecice06.com/CN/Y2010/V36/I06/24

[1]	杨璇, 马建敏, 赵曼君. 基于邻域互信息的高维时序数据特征选择[J]. 计算机工程, 2023, 49(7): 135-142.
[2]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[3]	刘利, 张德生, 肖燕婷. 基于隶属度的模糊加权k近质心近邻算法[J]. 计算机工程, 2022, 48(7): 122-129.
[4]	艾成豪, 高建华, 黄子杰. 混合特征选择和集成学习驱动的代码异味检测[J]. 计算机工程, 2022, 48(7): 168-176,198.
[5]	范林歌, 武欣嵘, 童玮, 曾维军. 基于概率矩阵分解的不完整数据集特征选择方法[J]. 计算机工程, 2022, 48(6): 57-64.
[6]	张要, 马盈仓, 朱恒东, 李恒, 陈程. 结合流形学习与逻辑回归的多标签特征选择[J]. 计算机工程, 2022, 48(3): 90-99,106.
[7]	汪正凯, 沈东升, 王晨曦. 基于文本分类的Fisher Score快速多标记特征选择算法[J]. 计算机工程, 2022, 48(2): 113-124.
[8]	黄奕轩, 杜世强, 余瑶, 肖庆江, 宋金梅. 基于特征选择与鲁棒图学习的多视图聚类[J]. 计算机工程, 2022, 48(12): 95-103.
[9]	王俊红, 赵彬佳. 基于不平衡数据的特征选择算法研究[J]. 计算机工程, 2021, 47(11): 100-107.
[10]	王旭, 陈永乐, 王庆生, 陈俊杰. 结合特征选择与集成学习的密码体制识别方案[J]. 计算机工程, 2021, 47(1): 139-145,153.
[11]	袁哲明, 杨晶晶, 陈渊. 基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程, 2020, 46(8): 101-105.
[12]	吴昌明, 赵兴涛, 柳可鑫. 基于三元组排序局部性的SOCFS改进算法[J]. 计算机工程, 2020, 46(5): 47-53.
[13]	穆妮热·穆合塔尔, 李晓, 杨雅婷. 维吾尔语复杂形态对汉维机器翻译的影响研究[J]. 计算机工程, 2020, 46(2): 309-314.
[14]	陈良臣, 高曙, 刘宝旭, 陶明峰. 网络流量异常检测中的维数约简研究[J]. 计算机工程, 2020, 46(2): 11-20.
[15]	刘洁, 王铮, 王辉. 基于IMI-WNB算法的垃圾邮件过滤技术研究[J]. 计算机工程, 2020, 46(12): 299-304,312.

选择文件类型/文献管理软件名称

选择包含的内容

基于最大熵的维吾尔语句子边界识别模型

Uyghur Sentence Boundary Identification Model Based on Maximum Entropy

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于最大熵的维吾尔语句子边界识别模型

Uyghur Sentence Boundary Identification Model Based on Maximum Entropy

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价