作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2020, Vol. 46 ›› Issue (2): 48-52,58. doi: 10.19678/j.issn.1000-3428.0055246

• 人工智能与模式识别 • 上一篇    下一篇

ALICE:一种面向中文科技文本分析的预训练语言表征模型

王英杰, 谢彬, 李宁波   

  1. 中国电子科技集团公司第三十二研究所, 上海 201808
  • 收稿日期:2019-06-18 修回日期:2019-08-06 发布日期:2019-08-16
  • 作者简介:王英杰(1994-),男,硕士研究生,主研方向为自然语言处理;谢彬,研究员;李宁波,高级工程师。
  • 基金资助:
    国家部委基金。

ALICE:A Pre-trained Language Representation Model for Chinese Technological Text Analysis

WANG Yingjie, XIE Bin, LI Ningbo   

  1. The 32 nd Research Institute of China Electronics Technology Group Corporation, Shanghai 201808, China
  • Received:2019-06-18 Revised:2019-08-06 Published:2019-08-16

摘要: 深度学习模型应用于自然语言处理任务时依赖大型、高质量的人工标注数据集。为降低深度学习模型对大型数据集的依赖,提出一种基于BERT的中文科技自然语言处理预训练模型ALICE。通过对遮罩语言模型进行改进并将其与命名实体级遮罩相结合,改善基础模型在下游任务中的表现,使其学习到的语言表征更贴合中文的语言特性。实验结果表明,与BERT模型相比,ALICE模型对于中文科技文本的分类准确率和命名实体识别的F1值分别提高1.2%和0.8%。

关键词: 预训练模型, 迁移学习, BERT模型, 文本分类, 命名实体识别, 自然语言推断

Abstract: The deep model of natural language processing rely on huge,high-quality and human-annotated dataset.In order to alleviate such dependency,this paper proposes a BERT-based natural language processing pre-trained model for Chinese technological text named ALICE.Improve Masked Language Model(MLM) and combine it with entity-level mask to boost the base model’s performance on downstream tasks,and let the learned representations fit Chinese trait much better.Experimental results show that,compared with the BERT model,ALICE model improves the classification accuracy of Chinese technological texts and the F1 value of named entity recognition by 1.2% and 0.8%,respectively.

Key words: pre-trained model, transfer learning, BERT model, text classification, named entity recognition, natural language inference

中图分类号: