基于Web的大规模语料库构建方法

doi:10.3969/j.issn.1000-3428.2008.07.014

计算机工程 ›› 2008, Vol. 34 ›› Issue (7): 41-43,4. doi: 10.3969/j.issn.1000-3428.2008.07.014

基于Web的大规模语料库构建方法

李培峰，朱巧明，钱培德

（苏州大学计算机科学和技术学院，苏州 215006）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-04-05 发布日期:2008-04-05

Construction Approach of Large-scale Corpus Based on Web

LI Pei-feng, ZHU Qiao-ming, QIAN Pei-de

（School of Computer Science and Technology, Soochow University, Suzhou 215006）

Received:1900-01-01 Revised:1900-01-01 Online:2008-04-05 Published:2008-04-05

摘要/Abstract

摘要： 低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法，主要解决如何基于Web构建大规模的语料库及对语料库纠错，从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料，根据可信度模型挑选出不可信的语料并由人工进行校对，计算校对后结果的可信度，选择出最可信的结果作为正确语料存储到语料库中。

关键词: 大规模语料库, 网格, 可信度

Abstract: Nowadays, it’s hard to build a large-scale corpus with low cost and short period. A new approach is provided to build that on Web. It mainly focuses on how to build a large-scale corpus on Web and then how to correct the mistakes in the corpus. The language materials are collected and processed based on grid and Wiki. The untrustworthy language materials in the corpus are picked out to be checked manually on Wiki according to their trustworthiness. After the check finishes, the approach calculates the trustworthiness of each checked result and selects ones with highest trustworthiness as the correct result.

Key words: large scale corpus, grid, trustworthiness

中图分类号:

TP391.1

李培峰;朱巧明;钱培德. 基于Web的大规模语料库构建方法[J]. 计算机工程, 2008, 34(7): 41-43,4.

LI Pei-feng; ZHU Qiao-ming; QIAN Pei-de. Construction Approach of Large-scale Corpus Based on Web[J]. Computer Engineering, 2008, 34(7): 41-43,4.

http://www.ecice06.com/CN/Y2008/V34/I7/41

[1]	陈治旭, 靳雁霞, 芦烨, 杨晶, 刘亚变, 史志儒. 基于子图卷积神经网络的多精度服装建模方法[J]. 计算机工程, 2023, 49(4): 174-181.
[2]	朱晓强, 陈琦. 基于可控卷积曲面的三维神经元建模[J]. 计算机工程, 2023, 49(3): 231-237.
[3]	刘振国, 李钊, 宋滕滕, 何益智. 结合可变形卷积与双边网格的立体匹配网络[J]. 计算机工程, 2022, 48(12): 241-247,254.
[4]	许乐, 安虹, 陈俊仕, 张鹏飞, 武铮. 基于神威·太湖之光的非结构网格计算加速算法[J]. 计算机工程, 2022, 48(12): 45-53.
[5]	张晓明, 孙维雅, 王会勇. 基于知识表示学习的知识可信度评估[J]. 计算机工程, 2021, 47(7): 44-54.
[6]	何旺宇, 王中华, 李亚晖. 基于VTCM的分布式可信度量方法[J]. 计算机工程, 2020, 46(8): 223-227,234.
[7]	党小超, 李月霞, 郝占军, 张彤. 一种基于改进蚁群算法的三维K-栅栏覆盖算法[J]. 计算机工程, 2020, 46(2): 221-229.
[8]	汪荣峰, 胡敏. 基于扫描线的卫星区域覆盖分析算法[J]. 计算机工程, 2020, 46(1): 243-246,254.
[9]	齐向明, 王佳琦. 网格形变细分的大视差图像拼接算法[J]. 计算机工程, 2020, 46(1): 236-242.
[10]	杨贤康, 潘茂东, 童伟华. 基于L₀优化的网格曲面特征线提取算法[J]. 计算机工程, 2019, 45(7): 251-257,263.
[11]	董敏,陈铁桩,杨浩. 基于Mesh的地面激光点云分离方法研究[J]. 计算机工程, 2019, 45(6): 32-36,44.
[12]	倪鸿, 刘鑫. 基于神威·太湖之光的非结构网格众核优化技术[J]. 计算机工程, 2019, 45(6): 45-51.
[13]	李佳佳,臧寅旭,刘向宇,夏秀峰,朱睿. 面向时间依赖路网的空间索引方法[J]. 计算机工程, 2019, 45(5): 127-134.
[14]	田学东,柴彦立,王海彬. 基于犹豫模糊特征的古籍汉字图像检索方法[J]. 计算机工程, 2019, 45(3): 217-224.
[15]	殷晓超,韩国栋,王孝龙. 基于输出队列的WUDN交换结构仿真及分析[J]. 计算机工程, 2018, 44(7): 80-85.

选择文件类型/文献管理软件名称

选择包含的内容

基于Web的大规模语料库构建方法

Construction Approach of Large-scale Corpus Based on Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于Web的大规模语料库构建方法

Construction Approach of Large-scale Corpus Based on Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价