计算机工程 ›› 2014, Vol. 40 ›› Issue (12): 141-145.doi: 10.3969/j.issn.1000-3428.2014.12.026
户冰心1a,2,3,古丽拉·阿东别克1a,2,3,祁卉1b
HU Bingxin1a,2,3,Gulia·Altenbek1a,2,3,QI Hui1b
摘要: 通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对“v+n+n”这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版) 2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。
中图分类号: