基于语料库的藏语高频词抽取研究

doi:10.3969/j.issn.1000-3428.2012.15.016

计算机工程 ›› 2012, Vol. 38 ›› Issue (15): 56-58. doi: 10.3969/j.issn.1000-3428.2012.15.016

基于语料库的藏语高频词抽取研究

才让卓玛，才智杰

(青海师范大学藏文信息处理省部共建教育部重点实验室，西宁 810008)

收稿日期:2011-12-27 出版日期:2012-08-05 发布日期:2012-08-05
作者简介:才让卓玛(1970－)，女，副教授、硕士，主研方向：藏文信息处理；才智杰，教授
基金资助:
国家自然科学基金资助项目(61163018)；国家“973”计划前期研究专项基金资助项目(2010CB334708)；国家社会科学基金资助项目(09XYY024)；青海省科技厅应用基础研究计划基金资助项目(2011-Z-755, 2011-Z-753)；青海师范大学科研创新计划基金资助项目；青海师范大学中青年科研基金资助项目

Study on Corpus-based Tibetan High-frequency Words Extraction

CAI Rang-zhuo-ma, CAI Zhi-jie

(Key Laboratory of Tibetan Information Processing, Ministry of Education, Qinghai Normal University, Xining 810008, China)

Received:2011-12-27 Online:2012-08-05 Published:2012-08-05

摘要/Abstract

摘要： 在借鉴汉语基于语料的词抽取技术研究成果的基础上，给出藏语文本预处理方法，并提出一种基于语料库的藏语高频词抽取算法，其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明，该算法的准确率达86.22%，召回率达89.79%，F值达87.94%。

关键词: 信息处理, 高频词, 藏语抽词, 自动分词, 语料库, 预处理

Abstract: Based on the research foundlings of Chinese corpus’ extraction, this paper presents the Tibetan preprocessing method and the high-frequency words extraction algorithm, which consists of the tables of noise words, tighten-word, preprocessing method and high-frequency words extraction algorithm. Experimental results show that this algorithm achieves a precision of 86.22%, a recall of 89.79%, and an F-measure of 87.94%.

Key words: information processing, high-frequency words, Tibetan words extraction, automatic words segmentation, corpus, preprocessing

中图分类号:

TP391

才让卓玛, 才智杰. 基于语料库的藏语高频词抽取研究[J]. 计算机工程, 2012, 38(15): 56-58.

CAI Rang-Zhuo-Ma, CAI Zhi-Jie. Study on Corpus-based Tibetan High-frequency Words Extraction[J]. Computer Engineering, 2012, 38(15): 56-58.

http://www.ecice06.com/CN/Y2012/V38/I15/56

参考文献

[1] 李庆虎, 陈玉健. 一种中文分词词典新机制——双字哈希机制[J]. 中文信息学报, 2003, 17(4): 13-18.
[2] 黄昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3): 8-19.
[3] 孙茂松, 邹嘉彦. 汉语自动分词研究评述[J]. 当代语言学, 2001, 3(1): 22-32.
[4] 陈玉忠, 李保利, 俞士汶, 等. 藏文自动分词系统的设计与实现[J]. 中文信息学报, 2003, 17(3): 15-20, 65.
[5] 陈玉忠, 李保利, 俞士汶, 等. 基于格助词和接续特征的书面藏文分词方案[J]. 语言文字应用, 2003, (1): 75-82.
[6] 才智杰. 藏文自动分词系统中紧缩词的识别[J]. 中文信息学报, 2009, 23(1): 35-37, 43.
[7] 才智杰, 才让卓玛. 班智达藏文标注词典库设计[J]. 中文信息学报, 2010, 24(5): 46-49.
[8] 高定国, 龚育昌. 现代藏字全集的属性统计研究[J]. 中文信息学报, 2005, 19(1): 71-75.
[9] 艾金勇, 于洪志, 李永宏, 等. 藏文字形结构计量统计分析[J].计算机应用, 2009, 29(7): 2029-2031.
[10] 才智杰, 才让卓玛. 基于语料库的藏文字属性分析系统设计[J].计算机工程, 2011, 37(22): 270-272.
[11] 李保利, 陈玉忠. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10): 1-5, 66.
[12] 孙茂松, 高海燕. 中文姓名的自动辨识[J]. 中文信息学报, 1995, 9(2): 16-27.
[13] 郑家恒, 李鑫. 基于语料库的中文姓名识别方法研究[J]. 中文信息学报, 2000, 14(1): 7-12.
[14] 张小衡, 王玲玲. 中文机构名称的识别与分析[J]. 中文信息学报, 1997, 11(4): 21-31.
[15] 黄萱菁, 吴立德. 基于机器学习的无需人工编制词典的切词系统[J]. 模式识别与人工智能, 1996, 9(4): 297-303.
[16] 任禾, 曾隽芳. 一种基于信息熵的中文高频词抽取算法[J]. 中文信息学报, 2006, 20(5): 40-44.
[17] 韩客松, 王永成. 无词典高频字串快速提取和统计算法研究[J].中文信息学报, 2001, 15(2): 23-30.
[18] 韩洁, 周勇, 刘少辉, 等. 基于WWW的未登录词识别研究[J]. 计算机科学, 2002, 29(12): 155-156.
[19] 金翔宇, 孙正平. 一种中文文档的非受限无词典抽词方法[J]. 中文信息学报, 2001, 15(6): 33-39.
[20] 郑家恒, 卢娇丽. 关键词抽取方法的研究[J]. 计算机工程, 2005, 31(18): 194-196.
[21] Bracewell D B, Ren F, Kuriowa S. Machine Learning Techniques for Business Blog Search and Mining[J]. Expert Systems with Applications, 2008, 35(3): 581-590.
[22] Zhu Huafei, Bao Feng. Continuous Keyword Search on Multiple Text Streams[C]//Proceedings of IEEE International Conference on Communications. Glasgow, UK: [s. n.], 2007: 1336-1341.

选择文件类型/文献管理软件名称

选择包含的内容

基于语料库的藏语高频词抽取研究

Study on Corpus-based Tibetan High-frequency Words Extraction

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

[1]	高庆吉, 李天昊, 邢志伟, 刘佩佩. 基于区块特征融合的点云语义分割方法[J]. 计算机工程, 2022, 48(9): 37-44,54.
[2]	周诗源, 王英林. 基于布谷鸟搜索优化算法的多文档摘要方法[J]. 计算机工程, 2020, 46(7): 58-64,71.
[3]	马鹏, 王泽宇, 钟卫东, 王绪安. 基于改进小波包分解的相关功耗攻击降噪方法[J]. 计算机工程, 2020, 46(7): 129-135,142.
[4]	唐素勤, 孙亚茹, 李志欣, 张灿龙. 基于强化学习的壮语词性标注[J]. 计算机工程, 2020, 46(4): 309-315.
[5]	陈曦, 朱小栋, 高广阔, 肖芳雄. 基于混合向量模型的中文评论情感分析[J]. 计算机工程, 2020, 46(1): 309-314.
[6]	孙营,王波涛. 基于可变形部件改进模型的夜间车辆检测方法[J]. 计算机工程, 2019, 45(3): 202-206.
[7]	王思翔,张磊,段晓毅,崔琦,高献伟. 基于希尔伯特黄变换滤波预处理的相关性能量分析攻击[J]. 计算机工程, 2018, 44(7): 160-165,171.
[8]	孙振华,南新元,蔡鑫. 基于动态数据驱动的生物氧化槽进气量预测[J]. 计算机工程, 2018, 44(6): 279-282,287.
[9]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[10]	陈东,邵增珍,魏争争,刘衍民. 基于中国观鸟数据的移动对象周期模式发现[J]. 计算机工程, 2017, 43(4): 1-7.
[11]	杨浩,林喜军,曲海鹏. 分布式网络下改进的Top-k查询算法[J]. 计算机工程, 2017, 43(2): 79-84.
[12]	段晓毅,王思翔,崔琦,孙渴望. 一种带掩码AES算法的高阶差分功耗分析攻击方案[J]. 计算机工程, 2017, 43(10): 120-125.
[13]	莫源源,潘丽同,严馨,余正涛,刘小惠. 基于最大熵模型的柬英平行网页获取[J]. 计算机工程, 2016, 42(5): 194-200.
[14]	年梅,张兰芳. 维吾尔文网络查询扩展词的构建研究[J]. 计算机工程, 2015, 41(4): 187-189,194.
[15]	塞麦提·麦麦提敏,侯敏,吐尔根·伊布拉音. 基于锚点句对的汉维句子对齐方法[J]. 计算机工程, 2015, 41(4): 166-170.

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于语料库的藏语高频词抽取研究

Study on Corpus-based Tibetan High-frequency Words Extraction

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价