基于短语的汉维/维汉统计机器翻译

doi:10.3969/j.issn.1000-3428.2011.09.006

计算机工程 ›› 2011, Vol. 37 ›› Issue (9): 16-18,21. doi: 10.3969/j.issn.1000-3428.2011.09.006

基于短语的汉维/维汉统计机器翻译

董兴华¹，周俊林²，郭树盛¹，吐尔洪•吾司曼¹

(1. 中国科学院新疆理化技术研究所，乌鲁木齐 830011；2. 中国科学院新疆分院，乌鲁木齐 830011)

出版日期:2011-05-05 发布日期:2011-05-12
作者简介:董兴华(1982－)，男，博士研究生，主研方向：自然语言处理，机器翻译；周俊林，研究员、博士生导师；郭树盛，硕士研究生；吐尔洪?吾司曼，助理研究员
基金资助:
中国科学院西部行动计划高新技术基金资助项目(KGCX2- YW-507)

Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation

DONG Xing-hua¹, ZHOU Jun-lin ², GUO Shu-sheng¹, Turghun Osman ¹

(1. Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. Xinjiang Branch of Chinese Academy of Science, Urumqi 830011, China)

Online:2011-05-05 Published:2011-05-12

摘要/Abstract

摘要： 利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点，通过对词级的语料库进行切分得到词素级的语料库，并分别进行词一级的实验和词素级的实验。实验表明，词素级的实验能降低无法识别的词的概率，提高翻译的质量。

关键词: 汉维, 维汉, 词素, 预处理, 后处理

Abstract: This paper gives a description of implementing a phrase-based machine translation system for Chinese-Uyghur, by the Moses toolkit, using a parallel corpus which is based on telephone recording. For the small scale parallel corpus and highly-inflected characteristics for Uyghur, it splits the Uyghur words into morphemes, and it gets another parallel corpus on morpheme-level. Experiments are carried out on word-level and morpheme-level separately, and show it can reduce the probability of Out-Of-Vocabulary(OOV) and improve the translation quality.

Key words: Chinese-Uyghur, Uyghur-Chinese, morpheme-level, preprocessing, postprocessing

中图分类号:

TP391.1

董兴华, 周俊林, 郭树盛, 吐尔洪?吾司曼. 基于短语的汉维/维汉统计机器翻译[J]. 计算机工程, 2011, 37(9): 16-18,21.

DONG Xin-Hua, ZHOU Dun-Lin, GUO Shu-Cheng, TU Er-Hong-?Wu-Ci-Man. Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation[J]. Computer Engineering, 2011, 37(9): 16-18,21.

http://www.ecice06.com/CN/Y2011/V37/I9/16

[1]	高庆吉, 李天昊, 邢志伟, 刘佩佩. 基于区块特征融合的点云语义分割方法[J]. 计算机工程, 2022, 48(9): 37-44,54.
[2]	陈玺, 杨雅婷, 董瑞. 面向汉维机器翻译的BERT嵌入研究[J]. 计算机工程, 2021, 47(12): 112-117.
[3]	周诗源, 王英林. 基于布谷鸟搜索优化算法的多文档摘要方法[J]. 计算机工程, 2020, 46(7): 58-64,71.
[4]	马鹏, 王泽宇, 钟卫东, 王绪安. 基于改进小波包分解的相关功耗攻击降噪方法[J]. 计算机工程, 2020, 46(7): 129-135,142.
[5]	王亚娟,李晓,杨雅婷,米成刚. 基于释义信息的维汉机器翻译系统融合研究[J]. 计算机工程, 2019, 45(4): 288-295,301.
[6]	孙营,王波涛. 基于可变形部件改进模型的夜间车辆检测方法[J]. 计算机工程, 2019, 45(3): 202-206.
[7]	王思翔,张磊,段晓毅,崔琦,高献伟. 基于希尔伯特黄变换滤波预处理的相关性能量分析攻击[J]. 计算机工程, 2018, 44(7): 160-165,171.
[8]	孙振华,南新元,蔡鑫. 基于动态数据驱动的生物氧化槽进气量预测[J]. 计算机工程, 2018, 44(6): 279-282,287.
[9]	陈东,邵增珍,魏争争,刘衍民. 基于中国观鸟数据的移动对象周期模式发现[J]. 计算机工程, 2017, 43(4): 1-7.
[10]	杨浩,林喜军,曲海鹏. 分布式网络下改进的Top-k查询算法[J]. 计算机工程, 2017, 43(2): 79-84.
[11]	段晓毅,王思翔,崔琦,孙渴望. 一种带掩码AES算法的高阶差分功耗分析攻击方案[J]. 计算机工程, 2017, 43(10): 120-125.
[12]	沈夏炯,吴晓洋,韩道军. 分水岭分割算法研究综述[J]. 计算机工程, 2015, 41(10): 26-30.
[13]	高敬阳,赵彦. 基于样本抽样和权重调整的SWA-Adaboost 算法[J]. 计算机工程, 2014, 40(9): 248-251,256.
[14]	刘万贤，彭华，于沛东. 基于软判决的PN码序列多项式估计改进算法[J]. 计算机工程, 2014, 40(6): 53-57.
[15]	杨军，张瑞峰，王小鹏，林岩龙. 基于图像引导滤波的人脸光照预处理算法[J]. 计算机工程, 2014, 40(4): 182-186,191.

选择文件类型/文献管理软件名称

选择包含的内容

基于短语的汉维/维汉统计机器翻译

Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于短语的汉维/维汉统计机器翻译

Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价