作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

基于词向量的维吾尔语词项归一化方法

罗延根 1,3,李晓 1,2,蒋同海 1,2,杨雅婷 1,2,周喜 1,2,王磊 1,2   

  1. (1.中国科学院新疆理化技术研究所,乌鲁木齐 830011;2.中国科学院新疆民族语音语言信息处理重点实验室,乌鲁木齐 830011; 3.中国科学院大学,北京 100049)
  • 收稿日期:2016-12-23 出版日期:2018-02-15 发布日期:2018-02-15
  • 作者简介:罗延根(1992—),男,硕士研究生,主研方向为机器翻译、自然语言处理;李晓、蒋同海,研究员、博士;杨雅婷,副研究员、博士;周喜、王磊,研究员、博士。
  • 基金资助:
    新疆维吾尔自治区青年科技创新人才培养工程项目(2014711006,2014721032);新疆维吾尔自治区高技术研究与发展项目(201412101);新疆维吾尔自治区重点实验室开放课题“基于黏着语形态特征的维汉机器翻译最大熵调序研究”(2015KL031);新疆维吾尔自治区重大科技专项课题“维汉机器翻译平台”(2016A03007-2)。

Uyghur Lexicon Normalization Method Based on Word Vector

LUO Yan’gen  1,3,LI Xiao  1,2,JIANG Tonghai  1,2,YANG Yating  1,2,ZHOU Xi  1,2,WANG Lei  1,2   

  1. (1.The Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Science,Urumqi 830011,China; 2.Xinjiang Laboratory of Minority Speech and Language Information Processing,Chinese Academy of Science,Urumqi 830011,China; 3.University of Chinese Academy of Sciences,Beijing 100049,China)
  • Received:2016-12-23 Online:2018-02-15 Published:2018-02-15

摘要: 使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。

关键词: 维吾尔语口语文本, 非正规词, 归一化, 神经网络, 重采样

Abstract: A unsupervised approach to normalize the irregular Uygur words in the spoken text to normal words in the formal text.Based on neural network,Uygur words are mapped to a low dimensional vector space by using a large corpus.The irregular words in vector space are clustered.A greedy decoder is introduced to normalize the unformal words and to resample iterations,so as to normalize the unformal words which have not been successfully normalized before.Experiment results show that using this approach to pre-edit the text to be translated by Uyghur-Chinese machine translation,the quality of the generated translation is significantly improved.This method provides a pretreatment process to spoken text and machine translation system,which can effectively improve the system performance of machine translation in the absence of bilingual parallel corpus of spoken.

Key words: Uyghur spoken text, unformal word, normalization, neural network, resample

中图分类号: