维吾尔语停用词抽取方法研究

doi:10.19678/j.issn.1000-3428.0052123

计算机工程 ›› 2019, Vol. 45 ›› Issue (10): 288-292,300. doi: 10.19678/j.issn.1000-3428.0052123

维吾尔语停用词抽取方法研究

塞麦提·麦麦提敏¹, 司马义·阿不都热依木²

1. 新疆大学中国语言学院, 乌鲁木齐 830046;
2. 新疆民汉语文翻译研究中心, 乌鲁木齐 830046

收稿日期:2018-07-16 修回日期:2018-10-22 出版日期:2019-10-15 发布日期:2018-11-09
作者简介:塞麦提·麦麦提敏(1980-),男,副教授、博士,主研方向为自然语言信息处理;司马义·阿不都热依木,讲师、博士。
基金资助:
国家社会科学基金（17XYY034）；教育部人文社会科学研究青年项目（16XJJC740001）。

Research on Uyghur Stop Words Extraction Method

SAIMAITI Maimaitimin¹, ESMAEL Abdurehim²

1. Chinese Languages School, Xinjiang University, Urumqi 830046, China;
2. Xinjiang Research Center for Chinese-Ethnic Languages Translation, Urumqi 830046, China

Received:2018-07-16 Revised:2018-10-22 Online:2019-10-15 Published:2018-11-09

摘要/Abstract

摘要： 为提高信息处理效率，文本信息检索系统通常将停用词作为噪音过滤掉，影响了文本处理的效果。针对该问题，提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上，采用文档频数、词项频率和信息熵的方法对大量语料进行统计，并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值，结果表明，使用该方法进行停用词过滤后，文本分类的计算复杂度降低，分类准确率达到80.8%。

关键词: 信息检索, 停用词, 维吾尔语, 文本分类, 语料统计

Abstract: In order to improve the efficiency of information processing,the text information retrieval system usually filters out the stop words as noise,which affects the effect of text processing.Aiming at this problem,a stop words extraction method in Uyghur language is proposed.On the basis of analyzing the characteristics of Uyghur stop words,the statistics on a large number of corpus is carried out by means of Document Frequency(DF),Term Frequency(TF) and Entropy(EN),and the part of speech distribution of candidate stop words is analyzed.The threshold of stop words is determined by text classification experiments.Experimental results show that after filtering stop words with the proposed method,the computational complexity of text classification is reduced,and the classification precision reaches 80.8%.

Key words: information retrieval, stop words, Uyghur, text classification, corpus statistics

中图分类号:

TP391

塞麦提·麦麦提敏, 司马义·阿不都热依木. 维吾尔语停用词抽取方法研究[J]. 计算机工程, 2019, 45(10): 288-292,300.

SAIMAITI Maimaitimin, ESMAEL Abdurehim. Research on Uyghur Stop Words Extraction Method[J]. Computer Engineering, 2019, 45(10): 288-292,300.

https://www.ecice06.com/CN/Y2019/V45/I10/288

图/表 9

20191014200021

20191014200024

20191014200027

20191014200029

20191014200033

20191014200035

20191014200038

20191014200041

20191014200044

参考文献 21

[1]	WILBUR W J.The automatic identification of stop words[J].Journal of Information Science,1992,18(2):45-55.
[2]	FOX C.Lexical analysis and stoplists[M]//Fox C.Information retrieval.New York,USA:ACM Press,1992:102-130.
[3]	HO T K.Stop word location and identification for adaptive text recognition[J].International Journal on Document Analysis and Recognition,2000,3(1):16-26.
[4]	VAN-RIJSBERGEN C J.Information retrieval[EB/OL].[2018-07-01].http://openlib.org/home/krichel/courses/lis618/readings/rijsbergen79_infor_retriev.pdf.
[5]	Onixtext retrieval toolkit stopword list 2[EB/OL].[2018-07-01].http://www.lextek.com/manuals/onix/stopwords2.html.
[6]	XPO6.Stop word list[EB/OL].[2018-07-01].http://xpo6.com/download-stop-word-list/.
[7]	ZOU Feng,WANG Fulee,DENG Xiaotian,et al.Automatic construction of Chinese stop word list[C]//Proceedings of the 5th WSEAS International Conference on Applied Computer Science.New York,USA:ACM Press,2006:1009-1014.
[8]	顾益军,樊孝忠,王建华,等.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340.
[9]	马治涛.文本分类停用词处理和特征选择技术研究[D].西安:西安电子科技大学,2014.
[10]	江兆中.基于语境和停用词驱动的中文自动分词研究[D].合肥:合肥工业大学,2010.
[11]	蒋斌.基于停用词处理的汉语语音检索方法[D].哈尔滨:哈尔滨工业大学,2008.
[12]	崔彩霞.停用词的选取对文本分类效果的影响研究[J].太原师范学院学报(自然科学版),2008,7(4):91-93.
[13]	巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011,25(4):35-38.
[14]	珠杰,李天瑞.藏文停用词选取与自动处理方法研究[J].中文信息学报,2015,29(2):125-132.
[15]	珠杰.藏文信息处理中若干关键技术研究[D].成都:西南交通大学,2016.
[16]	田生伟,钟军,禹龙.维吾尔语多词领域术语的自动抽取[J].中文信息学报,2015,29(2):133-141.
[17]	图尔妮萨古丽·赛麦提.基于N-gram的维吾尔文文本分类研究与系统实现[D].乌鲁木齐:新疆大学,2014.
[18]	艾海麦提江·阿布来提,吐尔地·托合提,艾斯卡尔·艾木都拉.基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J].计算机应用与软件,2012,29(12):27-29.
[19]	新疆民语委.现代维吾尔语详解辞典[M].乌鲁木齐:新疆人民出版社,2011.
[20]	阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,等.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112.
[21]	阿力木江·艾沙.基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J].中国教育技术装备,2017(12):24-27.

选择文件类型/文献管理软件名称

选择包含的内容

维吾尔语停用词抽取方法研究

Research on Uyghur Stop Words Extraction Method

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 9

参考文献 21

相关文章 15

编辑推荐

Metrics

本文评价

[1]	钱来, 赵卫伟. 基于对比学习和注意力机制的文本分类方法[J]. 计算机工程, 2024, 50(7): 104-111.
[2]	李雪, 王雅文, 张前进. 基于信息检索的源代码自动命名[J]. 计算机工程, 2024, 50(6): 304-310.
[3]	游奔, 李晓红, 姚锦, 冯绍杰. 基于多粒度图与注意力机制的半监督短文本分类[J]. 计算机工程, 2024, 50(5): 83-90.
[4]	哈里旦木·阿布都克里木, 侯钰涛, 姚登峰, 阿布都克力木·阿布力孜, 陈吉尚. 维吾尔语机器翻译研究综述[J]. 计算机工程, 2024, 50(1): 1-16.
[5]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[6]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[7]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[8]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[9]	李佩, 陈乔松, 陈鹏昌, 邓欣, 王进, 朴昌浩. 基于模态特异及模态共享特征信息的多模态细粒度检索[J]. 计算机工程, 2022, 48(11): 62-68,76.
[10]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[11]	周伟枭, 蓝雯飞. 融合文本分类的多任务学习摘要模型[J]. 计算机工程, 2021, 47(4): 48-55.
[12]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.
[13]	何力, 郑灶贤, 项凤涛, 吴建宅, 谭林. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11.
[14]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.
[15]	段丹丹, 唐加山, 温勇, 袁克海. 基于BERT模型的中文短文本分类算法[J]. 计算机工程, 2021, 47(1): 79-86.

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

维吾尔语停用词抽取方法研究

Research on Uyghur Stop Words Extraction Method

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 9

参考文献 21

相关文章 15

编辑推荐

Metrics

本文评价