作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2011, Vol. 37 ›› Issue (9): 16-18,21. doi: 10.3969/j.issn.1000-3428.2011.09.006

• 博士论文 • 上一篇    下一篇

基于短语的汉维/维汉统计机器翻译

董兴华1,周俊林2,郭树盛1,吐尔洪•吾司曼1   

  1. (1. 中国科学院新疆理化技术研究所,乌鲁木齐 830011;2. 中国科学院新疆分院,乌鲁木齐 830011)
  • 出版日期:2011-05-05 发布日期:2011-05-12
  • 作者简介:董兴华(1982-),男,博士研究生,主研方向:自然语言处理,机器翻译;周俊林,研究员、博士生导师;郭树盛,硕士研究生;吐尔洪?吾司曼,助理研究员
  • 基金资助:
    中国科学院西部行动计划高新技术基金资助项目(KGCX2- YW-507)

Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation

DONG Xing-hua  1, ZHOU Jun-lin  2, GUO Shu-sheng  1, Turghun Osman  1   

  1. (1. Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. Xinjiang Branch of Chinese Academy of Science, Urumqi 830011, China)
  • Online:2011-05-05 Published:2011-05-12

摘要: 利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。

关键词: 汉维, 维汉, 词素, 预处理, 后处理

Abstract: This paper gives a description of implementing a phrase-based machine translation system for Chinese-Uyghur, by the Moses toolkit, using a parallel corpus which is based on telephone recording. For the small scale parallel corpus and highly-inflected characteristics for Uyghur, it splits the Uyghur words into morphemes, and it gets another parallel corpus on morpheme-level. Experiments are carried out on word-level and morpheme-level separately, and show it can reduce the probability of Out-Of-Vocabulary(OOV) and improve the translation quality.

Key words: Chinese-Uyghur, Uyghur-Chinese, morpheme-level, preprocessing, postprocessing

中图分类号: