基于锚点句对的汉维句子对齐方法

doi:10.3969/j.issn.1000-3428.2015.04.031

计算机工程

基于锚点句对的汉维句子对齐方法

塞麦提·麦麦提敏 ¹,侯　敏 ²,吐尔根·伊布拉音 ¹

(1. 新疆大学信息科学与工程学院,乌鲁木齐830046;2. 中国传媒大学国家语言资源监测与研究有声媒体中心,北京100024)

收稿日期:2014-05-12 出版日期:2015-04-15 发布日期:2015-04-15
作者简介:塞麦提·麦麦提敏(1980 - ),男,讲师、博士,主研方向:自然语言处理;侯　敏、吐尔根·伊布拉音,教授、博士生导师。
基金资助:
新疆维吾尔自治区自然科学基金资助项目(2012211B08)。

Chinese-Uyghur Sentence Alignment Method Based on Anchor Sentence Pairs

Saimaiti Maimaitimin ¹,HOU Min ²,Tuergen Yibulayin¹

(1. College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China; 2. National Broadcast Media Language Resources Monitoring & Research Center,Communication University of China,Beijing 100024,China)

Received:2014-05-12 Online:2015-04-15 Published:2015-04-15

摘要/Abstract

摘要： 为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95. 2% ,比基于长度的句子对齐方法提高了2. 7% 。

关键词: 平行语料库, 句子对齐, 锚点, 基于长度的方法, 基于词汇的方法

Abstract: The step-by-step sentence alignment method is introduced in order to improve current Chinese-Uyghur sentence alignment method. Lexical and length information is used to generate some anchor sentences. Texts are divided into several sections by using anchor sentence as boundary,and then sentences in each section are aligned using lengthbased method. This method is effective in multi domain text because it uses words,numbers,and punctuation marks. It avoids complex computing and error spreading because of its “subsection” technique. Experimental results show that the precision of this method is 95. 2% in Chinese-Uyghur multi-domain texts,which is 2. 7% higher than length-based method.

Key words: parallel corpora, sentence alignment, anchor, length-based method, lexical-based method

中图分类号:

TP391

塞麦提·麦麦提敏,侯敏,吐尔根·伊布拉音. 基于锚点句对的汉维句子对齐方法[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2015.04.031.

Saimaiti Maimaitimin,HOU Min,Tuergen Yibulayin. Chinese-Uyghur Sentence Alignment Method Based on Anchor Sentence Pairs[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2015.04.031.

https://www.ecice06.com/CN/Y2015/V41/I4/166

参考文献

参考文献 [ 1 ]　毕雪华. 汉维双语语料库中句子对齐技术的研究[D]. 乌鲁木齐:新疆大学,2006. [ 2 ]　牛洪梅. 服务于汉维机器翻译系统的双语句子对齐的研究[D]. 乌鲁木齐:新疆大学,2007. [ 3 ]　热西旦. 汉文-维吾尔文双语语料库构建的实验性研究[D]. 乌鲁木齐:新疆大学,2007. [ 4 ]　田生伟,吐尔根·依布拉音. 多策略的汉维句子对齐[J]. 计算机科学,2010,37(4):215-218. [ 5 ]　Gale W,Church K. A Program for Aligning Sentences in Bilingual Corpora[C] / / Proceedings of the 29th Annual Meeting of ACL. Stroudsburg, USA: Association for Computational Linguistics,1991:177-184. [ 6 ]　Brown P F,Mercer R L. Aligning Sentences in Parallel Corpora[C] / / Proceedings of the 29th Annual Meeting of ACL. Stroudsburg, USA: Association for Computational Linguistics,1991:169-176. [ 7 ]　Gale W,Church K. A Program for Aligning Sentences in Bilingual Corpora[J]. Computational Linguistics,1993, 19(1):75-90. [ 8 ]　Mamitimin S. Chinese-Uyghur Sentence Alignment:An Approach Based on Anchor Sentences[C] / / Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: From Parallel to Non-parallel Corpora. Singapore: Association for Computational Linguistics, 2009:38-45. [ 9 ]　塞麦提·麦麦提敏. 汉维平行语料库构建研究[D]. 北京:中国传媒大学,2009. [10]　李维刚,刘　挺,张　宇,等. 基于长度和位置信息的双语句子对齐方法[J]. 哈尔滨工业大学学报,2006, 38(5):689-692. [11]　祝志杰. IHSMTS 中汉英双语句子对齐机制的设计与实现[D]. 南京:南京理工大学,2002. [12]　张　艳,柏冈秀纪. 基于长度的扩展方法的汉英句子对齐[J]. 中文信息学报,2005,19(5):31-37. 编辑　刘　冰

[1]	魏一雄, 张燕龙, 张红旗, 周红桥, 郭磊, 李广. 面向头戴式增强/混合现实设备的第三方视角技术研究[J]. 计算机工程, 2021, 47(6): 284-291.
[2]	李浩, 张晓强. 基于单线程的无锚点目标检测模型[J]. 计算机工程, 2021, 47(5): 229-235,243.
[3]	丁颖,李军辉,周国栋. 基于词对建模的句子对齐研究[J]. 计算机工程, 2019, 45(6): 211-217.
[4]	端木春江,左德遥. 锚点领域回归与稀疏表示的图像超分辨率方法[J]. 计算机工程, 2019, 45(5): 194-198.
[5]	莫源源,潘丽同,严馨,余正涛,刘小惠. 基于最大熵模型的柬英平行网页获取[J]. 计算机工程, 2016, 42(5): 194-200.
[6]	唐朝伟,张希,王雪锋,周旭,宋俊平. 基于用户行为特征的SVC 分片调度算法[J]. 计算机工程, 2015, 41(2): 248-252,257.
[7]	高丹丹, 吴宝明, 王圣超. 无线传感器网络重复优化无锚点定位算法[J]. 计算机工程, 2012, 38(18): 80-82.
[8]	余勇;王康华;孙为. HMIPv6的LT-TMAP快速切换方案[J]. 计算机工程, 2010, 36(5): 125-127,.

选择文件类型/文献管理软件名称

选择包含的内容

基于锚点句对的汉维句子对齐方法

Chinese-Uyghur Sentence Alignment Method Based on Anchor Sentence Pairs

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 8

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于锚点句对的汉维句子对齐方法

Chinese-Uyghur Sentence Alignment Method Based on Anchor Sentence Pairs

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 8

编辑推荐

Metrics

本文评价