双语平行网页挖掘系统的设计与实现

doi:10.3969/j.issn.1000-3428.2009.14.093

计算机工程 ›› 2009, Vol. 35 ›› Issue (14): 267-269. doi: 10.3969/j.issn.1000-3428.2009.14.093

双语平行网页挖掘系统的设计与实现

陈伟，黄蕾，刘峰，赵志宏

(南京大学软件学院，南京 210089)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-07-20 发布日期:2009-07-20

Design and Implementation of Bilingual Parallel Web Page Mining System

CHEN Wei, HUANG Lei, LIU Feng, ZHAO Zhi-hong

(Institute of Software, Nanjing University, Nanjing 210089)

Received:1900-01-01 Revised:1900-01-01 Online:2009-07-20 Published:2009-07-20

摘要/Abstract

摘要： 针对双语语料是开发统计机器翻译系统的重要资源，提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同，该方法从整个互联网中自动挖掘平行网页，对新的语言对和内容领域有很强的适应能力，实现双语平行网页挖掘的系统。实验结果显示，该系统可以为统计机器翻译系统提供大量高质量的平行网页。

关键词: 自然语言处理, 统计机器翻译, 双语语料, 网络挖掘

Abstract: Aiming at bilingual corpora is critical resources for developing statistical machine translation system, this paper presents a method which automatically mines bilingual parallel Web page form Web. Different from mining data from pre-specified Web sites, the system is developed to mine parallel Web page from the entire Web, it is greatly suitable for new content domains and language pairs. It implements a parallel Web page mining system. Experimental results show that the system can provide large scale and high quality parallel Web page for statistical machine translation.

Key words: natural language processing, statistical machine translation, bilingual corpora, Web mining

中图分类号:

TP312

陈伟;黄蕾;刘峰;赵志宏. 双语平行网页挖掘系统的设计与实现[J]. 计算机工程, 2009, 35(14): 267-269.

CHEN Wei; HUANG Lei; LIU Feng; ZHAO Zhi-hong. Design and Implementation of Bilingual Parallel Web Page Mining System[J]. Computer Engineering, 2009, 35(14): 267-269.

http://www.ecice06.com/CN/Y2009/V35/I14/267

[1]	郭艳霞, 金勇, 唐宏, 彭金枝. 基于动态卷积与残差门控的多模态情感识别[J]. 计算机工程, 2023, 49(7): 94-101.
[2]	李静雯, 赵奎. 基于改进PCFG算法的口令猜测方法[J]. 计算机工程, 2023, 49(5): 38-47.
[3]	杨文忠, 丁甜甜, 康鹏, 卜文秀. 基于舆情新闻的中文关键词抽取综述[J]. 计算机工程, 2023, 49(3): 1-17.
[4]	蔡瑞初, 张盛强, 许柏炎. 基于结构感知混合编码模型的代码注释生成方法[J]. 计算机工程, 2023, 49(2): 61-69.
[5]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[6]	田乔鑫, 孔韦韦, 滕金保, 王照乾. 基于并行混合网络与注意力机制的文本情感分析模型[J]. 计算机工程, 2022, 48(8): 266-273.
[7]	司逸晨, 管有庆. 基于Transformer编码器的中文命名实体识别模型[J]. 计算机工程, 2022, 48(7): 66-72.
[8]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[9]	宋旭晖, 于洪涛, 李邵梅. 基于图注意力网络字词融合的中文命名实体识别[J]. 计算机工程, 2022, 48(10): 298-305.
[10]	江旭, 钱雪忠, 宋威. 结合残差BiLSTM与句袋注意力的远程监督关系抽取[J]. 计算机工程, 2022, 48(10): 110-115,122.
[11]	李瑜泽, 栾馨, 柯尊旺, 李哲, 吾守尔·斯拉木. 知识感知的预训练语言模型综述[J]. 计算机工程, 2021, 47(9): 18-33.
[12]	许振雷, 董洪伟. 基于先验MASK注意力机制的视频问答方案[J]. 计算机工程, 2021, 47(2): 52-59.
[13]	韩虎, 赵启涛, 孙天岳, 刘国利. 面向社交媒体评论的上下文语境讽刺检测模型[J]. 计算机工程, 2021, 47(1): 66-71.
[14]	丁辰晖, 夏鸿斌, 刘渊. 融合知识图谱与注意力机制的短文本分类模型[J]. 计算机工程, 2021, 47(1): 94-100.
[15]	李冠宇, 张鹏飞, 贾彩燕. 一种注意力增强的自然语言推理模型[J]. 计算机工程, 2020, 46(7): 91-97.

选择文件类型/文献管理软件名称

选择包含的内容

双语平行网页挖掘系统的设计与实现

Design and Implementation of Bilingual Parallel Web Page Mining System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

双语平行网页挖掘系统的设计与实现

Design and Implementation of Bilingual Parallel Web Page Mining System

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价