作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2021, Vol. 47 ›› Issue (12): 112-117. doi: 10.19678/j.issn.1000-3428.0059863

• 人工智能与模式识别 • 上一篇    下一篇

面向汉维机器翻译的BERT嵌入研究

陈玺1,2,3, 杨雅婷1,2,3, 董瑞1,2,3   

  1. 1. 中国科学院新疆理化技术研究所, 乌鲁木齐 830011;
    2. 中国科学院大学, 北京 100049;
    3. 新疆民族语音语言信息处理实验室, 乌鲁木齐 830011
  • 收稿日期:2020-10-28 修回日期:2020-12-02 发布日期:2020-12-08
  • 作者简介:陈玺(1995-),男,硕士研究生,主研方向为自然语言处理、机器翻译;杨雅婷,研究员、博士;董瑞,副研究员、博士。
  • 基金资助:
    国家自然科学基金“融合复杂形态特征的多语言神经机器翻译研究”(U1703133);国家重点研发计划“维吾尔语、哈萨克语到汉语的机器翻译研究”(2017YFC0822505-04);新疆高层次引进人才项目(新人社函[2017]699号);中国科学院“西部之光”人才培养计划A类项目“以和田墨玉为例的维汉翻译关键技术研究”(2017-XBQNXZ-A-005)。

Research on BERT Embedding for Chinese-Uyghur Machine Translation

CHEN Xi1,2,3, YANG Yating1,2,3, DONG Rui1,2,3   

  1. 1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China;
    2. University of Chinese Academy of Sciences, Beijing 100049, China;
    3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi 830011, China
  • Received:2020-10-28 Revised:2020-12-02 Published:2020-12-08

摘要: 针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。

关键词: 汉维翻译, 神经机器翻译, 预训练语言模型, BERT模型, 两段式微调策略

Abstract: The Chinese-Uyghur parallel corpus required for training Chinese-Uyghur machine translation models suffer from data sparsity.To address the problem, this paper embeds the Chinese pre-trained language BERT model into a Chinese-Uyghur neural machine translation model to improve the quality of translation.This research compares the embedding effects of coding information of different Chinese BERT pre-trained models, explores the influence of the coding information at different hidden layers of Chinese BERT on Chinese-Uyghur neural machine translation, and on this basis proposes a two-stage BERT fine-tuning strategy.By comparative experiments, this paper summarizes the best method of applying the BERT model to the Chinese-Uyghur neural machine translation.The experimental results on the Chinese-Uyghur public dataset show that the proposed model increases the BLEU value by 1.64, and significantly improves the performance of the Chinese-Uyghur machine translation system.

Key words: Chinese-Uyghur translation, Neural Machine Translation(NMT), pre-trained language model, BERT model, two-stage fine-tuning strategy

中图分类号: