汉维统计机器翻译中的形态学处理

doi:10.3969/j.issn.1000-3428.2011.12.050

计算机工程 ›› 2011, Vol. 37 ›› Issue (12): 150-152.

汉维统计机器翻译中的形态学处理

董兴华 ¹，陈丽娟 ¹，周喜 ¹，周俊林²，吐尔洪•吾司曼 ¹

(1. 中国科学院新疆理化技术研究所，乌鲁木齐 830011；2. 中国科学院新疆分院，乌鲁木齐 830011)

收稿日期:2011-06-01 出版日期:2011-06-20 发布日期:2011-06-20
作者简介:董兴华(1982－)，男，博士研究生，主研方向：自然语言处理；陈丽娟，硕士研究生；周喜，副研究员；周俊林，研究员、博士生导师；吐尔洪?吾司曼，助理研究员
基金资助:
中国科学院西部行动计划高新技术基金资助项目(KGCX2- YN-507)

Morphology Processing in Chinese-Uyghur Statistical Machine Translation

DONG Xing-hua ¹, CHEN Li-juan¹, ZHOU Xi ¹, ZHOU Jun-lin ², Turghun Osman ¹

(1. Xinjiang Technical Institute of Physics & Chemistry, Chinese Academic of Sciences, Urumqi 830011, China; 2. Xingjiang Branch of Chinese Academic of Sciences, Urumqi 830011, China)

Received:2011-06-01 Online:2011-06-20 Published:2011-06-20

摘要/Abstract

摘要： 针对汉语和维吾尔语语序差别(前者是主-谓-宾结构，后者是主-宾-谓结构)及形态差别较大的问题，通过编写调序规则将汉语调整为主-宾-谓结构，将维吾尔语单词切分为词干、词缀等更小的词素单元来训练统计模型，同时测试词素的切分粒度对翻译性能的影响。实验结果表明，对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效提高翻译质量。

关键词: 汉维, 统计机器翻译, 词素, 调序

Abstract: For the large differences of syntactic structure between Chinese and Uyghur, it composes rules to reorder the structure of Chinese sentences to that of Uyghur. For the large morphological differences between Chinese and Uyghur, it splits Uyghur words into stems and affixes, that is, morphemes, to train the statistical model. Meanwhile, it tests the effects of splitting granularities on translation performance. Experimental results show Chinese sentence reordering and splitting Uyghur words into morphemes can effectively improve the performance of translation system.

Key words: Chinese-Uyghur, statistical machine translation, morpheme, reordering

中图分类号:

N945

董兴华, 陈丽娟, 周喜, 周俊林, 吐尔洪?吾司曼. 汉维统计机器翻译中的形态学处理[J]. 计算机工程, 2011, 37(12): 150-152.

DONG Xin-Hua, CHEN Li-Juan, ZHOU Chi, ZHOU Dun-Lin, TU Er-Hong-?Wu-Ci-Man. Morphology Processing in Chinese-Uyghur Statistical Machine Translation[J]. Computer Engineering, 2011, 37(12): 150-152.

https://www.ecice06.com/CN/Y2011/V37/I12/150

[1]	哈里旦木·阿布都克里木, 侯钰涛, 姚登峰, 阿布都克力木·阿布力孜, 陈吉尚. 维吾尔语机器翻译研究综述[J]. 计算机工程, 2024, 50(1): 1-16.
[2]	陈玺, 杨雅婷, 董瑞. 面向汉维机器翻译的BERT嵌入研究[J]. 计算机工程, 2021, 47(12): 112-117.
[3]	穆妮热·穆合塔尔, 李晓, 杨雅婷. 维吾尔语复杂形态对汉维机器翻译的影响研究[J]. 计算机工程, 2020, 46(2): 309-314.
[4]	周珂,余正涛,高盛祥. 融合主题的汉越冶金领域统计机器翻译方法[J]. 计算机工程, 2017, 43(12): 179-183.
[5]	米莉万.雪合来提,麦热哈巴.艾力，吐尔根.依布拉音，姜文斌. 维吾尔语词尾对汉维统计机器翻译影响的研究[J]. 计算机工程, 2014, 40(3): 224-227.
[6]	陈丽娟, 张恒, 董兴华, 吐尔洪?吾司曼, 周俊林. 基于句法调序的汉维统计机器翻译[J]. 计算机工程, 2012, 38(3): 169-171,175.
[7]	董兴华, 周俊林, 郭树盛, 吐尔洪?吾司曼. 基于短语的汉维/维汉统计机器翻译[J]. 计算机工程, 2011, 37(9): 16-18,21.
[8]	陈伟;黄蕾;刘峰;赵志宏. 双语平行网页挖掘系统的设计与实现[J]. 计算机工程, 2009, 35(14): 267-269.
[9]	张建平;杜学东. 一种奇序列并行排序算法[J]. 计算机工程, 2007, 33(15): 96-97，1.

选择文件类型/文献管理软件名称

选择包含的内容

汉维统计机器翻译中的形态学处理

Morphology Processing in Chinese-Uyghur Statistical Machine Translation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 9

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

汉维统计机器翻译中的形态学处理

Morphology Processing in Chinese-Uyghur Statistical Machine Translation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 9

编辑推荐

Metrics

本文评价