作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程

• 人工智能及识别技术 • 上一篇    下一篇

维吾尔语词尾对汉维统计机器翻译影响的研究

米莉万.雪合来提1a,1b,2,3,麦热哈巴.艾力1a,1b,吐尔根.依布拉音1a,1b,姜文斌2   

  1. (1. 新疆大学 a. 信息科学与工程学院;b. 多语种信息技术重点实验室,乌鲁木齐 830046; 2. 中国科学院计算技术研究所,北京 100190;3. 乌鲁木齐市工商局,乌鲁木齐 830002)
  • 收稿日期:2013-01-31 出版日期:2014-03-15 发布日期:2014-03-13
  • 作者简介:米莉万?雪合来提(1984-),女,博士研究生,主研方向:自然语言处理,机器翻译;麦热哈巴?艾力,博士研究生;吐尔根?依不拉音,教授、博士生导师;姜文斌,助理研究员、博士。
  • 基金资助:

    国家自然科学基金资助项目(61063026);国家自然科学基金资助重点项目(61032008);国家社会科学基金资助重点项目(10AYY006);新疆多语种信息技术重点实验室开放基金资助项目。

Research on Uyghur Suffix’s Influence on Chinese-Uyghur Statistical Machine Translation

Miliwan.Xuehelaiti 1a,1b,2,3, Mairehaba.Aili 1a,1b, Tuergen.Yibulayin 1a,1b, JIANG Wen-bin 2   

  1. (1a. School of Information Science and Engineering; 1b. Key Laboratory of Mulltilanguage Information Technology, Xinjiang University, Urmuqi 830046, China; 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 3. Urumqi Administration of Industry and Commerce, Urumqi 830002, China)
  • Received:2013-01-31 Online:2014-03-15 Published:2014-03-13

摘要:

维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.197 2。

关键词: 黏着语, 词尾, 统计机器翻译, 层次短语翻译模型, 语言模型

Abstract:

Uyghur which belongs to altaic language system is a typical agglutinative language and has large number of suffixes, and there is a big contrast with Chinese. According to the morphological characteristics of Uyghur language, this paper analyzes the Uyghur suffix’s role in Chinese-Uyghur statistical machine translation system. With the help of the Cheiro and exsiting technology it builds a hierarchical phrase-based Chinese-Uyghur statistical machine translation system. By comparing the performance of translation system with different granularity parallel corpora, experimental results show that the stem-affix representational units improve the performance of Chinese-Uyghur statistical machine translation system, and the BLEU value achieves to 0.197 2.

Key words: agglutinative language, suffix, statistical machine translation, hierarchical phrase-based translation model, language model

中图分类号: