作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2012, Vol. 38 ›› Issue (15): 56-58. doi: 10.3969/j.issn.1000-3428.2012.15.016

• 软件技术与数据库 • 上一篇    下一篇

基于语料库的藏语高频词抽取研究

才让卓玛,才智杰   

  1. (青海师范大学藏文信息处理省部共建教育部重点实验室,西宁 810008)
  • 收稿日期:2011-12-27 出版日期:2012-08-05 发布日期:2012-08-05
  • 作者简介:才让卓玛(1970-),女,副教授、硕士,主研方向:藏文信息处理;才智杰,教授
  • 基金资助:
    国家自然科学基金资助项目(61163018);国家“973”计划前期研究专项基金资助项目(2010CB334708);国家社会科学基金资助项目(09XYY024);青海省科技厅应用基础研究计划基金资助项目(2011-Z-755, 2011-Z-753);青海师范大学科研创新计划基金资助项目;青海师范大学中青年科研基金资助项目

Study on Corpus-based Tibetan High-frequency Words Extraction

CAI Rang-zhuo-ma, CAI Zhi-jie   

  1. (Key Laboratory of Tibetan Information Processing, Ministry of Education, Qinghai Normal University, Xining 810008, China)
  • Received:2011-12-27 Online:2012-08-05 Published:2012-08-05

摘要: 在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。

关键词: 信息处理, 高频词, 藏语抽词, 自动分词, 语料库, 预处理

Abstract: Based on the research foundlings of Chinese corpus’ extraction, this paper presents the Tibetan preprocessing method and the high-frequency words extraction algorithm, which consists of the tables of noise words, tighten-word, preprocessing method and high-frequency words extraction algorithm. Experimental results show that this algorithm achieves a precision of 86.22%, a recall of 89.79%, and an F-measure of 87.94%.

Key words: information processing, high-frequency words, Tibetan words extraction, automatic words segmentation, corpus, preprocessing

中图分类号: