维吾尔语停用词抽取方法研究

引用本文

塞麦提·麦麦提敏, 司马义·阿不都热依木. 维吾尔语停用词抽取方法研究[J]. 计算机工程, 2019, 45(10), 288-292, 300. DOI: 10.19678/j.issn.1000-3428.0052123.

SAIMAITI Maimaitimin, ESMAEL Abdurehim. Research on Uyghur Stop Words Extraction Method[J]. Computer Engineering, 2019, 45(10), 288-292, 300. DOI: 10.19678/j.issn.1000-3428.0052123.

基金项目

国家社会科学基金（17XYY034）；教育部人文社会科学研究青年项目（16XJJC740001）

作者简介

塞麦提·麦麦提敏(1980-), 男, 副教授、博士, 主研方向为自然语言信息处理;
司马义·阿不都热依木, 讲师、博士

文章历史

收稿日期：2018-07-16
修回日期：2018-10-22

Contents Abstract Full text Figures/Tables PDF

维吾尔语停用词抽取方法研究

塞麦提·麦麦提敏¹ , 司马义·阿不都热依木²

1. 新疆大学中国语言学院, 乌鲁木齐 830046;
2. 新疆民汉语文翻译研究中心, 乌鲁木齐 830046

收稿日期：2018-07-16；修回日期：2018-10-22

基金项目：国家社会科学基金（17XYY034）；教育部人文社会科学研究青年项目（16XJJC740001）

作者简介：塞麦提·麦麦提敏(1980-), 男, 副教授、博士, 主研方向为自然语言信息处理; 司马义·阿不都热依木, 讲师、博士.

E-mail：tilchin@126.com

摘要：为提高信息处理效率，文本信息检索系统通常将停用词作为噪音过滤掉，影响了文本处理的效果。针对该问题，提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上，采用文档频数、词项频率和信息熵的方法对大量语料进行统计，并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值，结果表明，使用该方法进行停用词过滤后，文本分类的计算复杂度降低，分类准确率达到80.8%。

Research on Uyghur Stop Words Extraction Method

SAIMAITI Maimaitimin¹ , ESMAEL Abdurehim²

1. Chinese Languages School, Xinjiang University, Urumqi 830046, China;
2. Xinjiang Research Center for Chinese-Ethnic Languages Translation, Urumqi 830046, China

Abstract: In order to improve the efficiency of information processing, the text information retrieval system usually filters out the stop words as noise, which affects the effect of text processing.Aiming at this problem, a stop words extraction method in Uyghur language is proposed.On the basis of analyzing the characteristics of Uyghur stop words, the statistics on a large number of corpus is carried out by means of Document Frequency(DF), Term Frequency(TF) and Entropy(EN), and the part of speech distribution of candidate stop words is analyzed.The threshold of stop words is determined by text classification experiments.Experimental results show that after filtering stop words with the proposed method, the computational complexity of text classification is reduced, and the classification precision reaches 80.8%.

0 概述

停用词是指在文本中出现频率较高, 但其语义信息对各种信息处理系统贡献较小的词语。例如, 在维吾尔语搜索引擎中, 大量文本被切分为词语索引, 其中很多为连词、后置词、助动词等虚词, 没有实际意义, 也不包含领域特征信息, 一般只起到语法作用, 对文本自动分类的作用不大。因此, 大多数信息系统需要引入停用词处理过程, 以减少文本的无用特征, 降低特征空间的维数, 减少计算时间, 提高文本处理的效率和精度。

国内外很多学者都非常重视停用词的识别和处理, 且取得了较多研究成果。英文停用词的研究起步较早, 文献[1-3]对停用词进行研究并提出多种处理方法。在公开发表的英语停用词表中, 较著名的有:Brown语料库的停用词表(425词)^[4], Onix文本抽取工具包的停用词表(571词)^[5], XPO6停用词表(319词)^[6]等。

在中文停用词研究方面, 文献[7]提出基于熵的停用词抽取方法, 文献[8]依据联合熵选取停用词, 文献[9]对传统的卡方检验方法进行改善。文献[10-11]研究了停用词在中文自动分词、语音检索、用户信息查询等方面的应用。文献[12]研究停用词选取对文本分类效果的影响, 发现在停用词过滤后, 特征集维数可缩减24.3%。

在少数民族语言方面, 文献[13-15]介绍蒙古文和藏文停用词处理的方法, 但关于维吾尔语停用词处理的研究较少。文献[16]在实验中使用临时获取的810个停用词, 但并没有具体分析停用词的抽取方法和来源。文献[17]建立了以虚词为主的维吾尔语停用词表(280词)。文献[18]列举出几个停用词, 但都没有提出相应的提取方法。上述文献的停用词选取范围、抽取方法、抽取数量有所差别, 但得出的结论均显示, 停用词识别对提高应用系统准确率和降低计算复杂度具有积极意义。

随着维吾尔语等少数民族语言信息检索技术的快速发展, 确定维吾尔语停用词表变得至关重要。然而, 至今还没有一个标准的维吾尔语停用词表可供使用。在这种情况下, 本文基于停用词处理的相关研究, 分析维吾尔语的停用词范围, 提出停用词抽取方法并进行语料统计与分析, 以确定维吾尔语的停用词表。

1 停用词范围

为提高检索效率, 在各类信息检索系统中, 停用词常被作为“噪音”自动过滤掉。但是, 不同语言的停用词范围有所不同, 很难确定统一的停用词表。同一种语言在不同的应用系统中所使用的停用词也有差异。通常意义上讲, 停用词可分2类:

1) 绝对停用词, 包含虚词、助动词等功能词。维吾尔语中的后置词、连词、语气词等在句子中没有实义, 只表示语法意义, 例如维语单词wε(和)、qatarliq(等等)、(按照)等。这类功能词在不同文本中出现的概率大致相同, 对文本特征抽取没有帮助, 一般可采取适当方法直接从词典中获取。

2) 相对停用词, 一般指在文本集合中出现频率较高, 但对文本信息检索没有积极作用的非功能词。过滤这类词语, 容易导致系统负担加重。维吾尔语中的某些代词、数词等的使用频率较高, 使用范围较广, 但其对关键信息提取没有帮助, 反而会降低搜索效率。因此, 通常需要移除这类词语, 以提高信息检索性能。例如, bu(这)、u(他)、øz(自己)等代词, 一般可采用统计方法获取。

本文通过对维吾尔语的词典和语料进行统计和分析, 逐步筛选确定停用词。

2 停用词抽取方法

停用词抽取的常用统计方法有3种:文档频数法(Document Frequency, DF), 词项频率法(Term Frequency, TF)和信息熵法(Entropy, EN)。

2.1 文档频数法

文档频数是指在训练集合中包含某一单词的文本数, 其为一个简单的评估函数。DF用于停用词抽取的理论假设是:当一个词在大量文本中出现时, 这个词可能是停用词。在文本集中, 一个词语t_i的文档频率计算如下:

$ DF\left( {{t_i}} \right) = \sum\limits_{j = 1}^n p \left( {{t_i}, {d_j}} \right) $

(1)

其中, n为文档总数, p(t_i, d_j)表示特征词t_i是否在文档d_j中出现, 具体如下:

$ p\left( {{t_i}, {d_j}} \right) = \left\{ {\begin{array}{*{20}{l}} {1, {t_i} \in {d_j}}\\ {0, {t_i} \notin {d_j}} \end{array}} \right. $

(2)

DF的运算量较小, 一般与训练语料集中的文本数量有关。将DF用于停用词抽取时, 可根据DF值进行降序排序, 将阈值前的词作为停用词。如果某个特征词语在某类文档中出现次数较多且具有区分功能, 则去除这类特征词可能会降低抽取效果, 因此不能仅依靠文档频数获取停用词, 需结合其他方法使用。

2.2 词项频率法

词项频率是指某个词项在文档中出现的频率, 一般简称为词频。通过词频统计, 可获得文本的词语特征向量。TF值为训练集合中各单词的出现频数。TF法是一个简单的评估函数, 其理论假设是:当某一单词在训练集中出现频率很高时, 可以成为停用词。

在一般情况下, 同一个单词在长文本中的词频会比在短文本中的词频高很多, 因此要防止其对于长文本的不利影响, 对每个文本中的词频特征向量作归一化处理, 具体如下:

$ {w_{ij}} = \frac{{{t_{ij}}}}{{\sum\limits_{j = 1}^n {{t_{ij}}} }} $

(3)

其中, w_ij为词语w_i在第j个文档中的比重, t_ij为词语频次。一个词语在所有文档中的总比重的计算过程如下:

$ TF\left( {{w_i}} \right) = \sum\limits_{1 \le i \le m} {{w_{ij}}} $

(4)

其中, TF(w_i)表示词语w_i在所有文档中出现的比重, m为文档总数。

由于停用词在文本中出现的频次较高, 可通过词频排序获取候选停用词。但是, 只用这一种方法可能把一些频率高, 而对文本分类有用的关键词也当作停用词, 导致出现错误。

2.3 信息熵法

熵是信息论中很重要的一个概念, 通过信息熵可以度量信息的不确定性程度。熵值越大表示某一信息的不确定性越强。词语w在n个文本中的熵值EN(w)可用式(5)计算。

$ EN(w) = 1 + \frac{1}{{\ln m}}\sum\limits_{i = 1}^n {{p_i}} (w) \times \ln {p_i}(w) $

(5)

其中:

$ {p_i}(w) = \frac{{{f_i}(w)}}{{\sum\limits_{j = 1}^n {{f_j}} (w)}} $

(6)

在式(6)中, f_i(w)为词语w在第i个文本中出现的词频, n为文本总数。在计算每个词的熵值之后, 词语按照熵值进行升序排列, 将阈值前的词作为停用词。

在停用词抽取方面, TF、DF、EN等方法各有优缺点。因此, 需要通过实验来验证这些统计方法在停用词选取方面的合理性。

3 语料统计与分析 3.1 语料数据

本文实验语料来自新疆大学多领域平衡语料库, 选用16个领域的1 408个文本(807 257词频), 语料大小为11.3 MB。将90%的实验语料作为训练集, 10%的语料作为测试集, 具体分布情况如表 1所示。

下载CSV 表 1 停用词抽取的实验语料分布情况

3.2 停用词抽取流程

本文的停用词抽取流程如图 1所示。首先对语料数据进行预处理, 然后分别采用基于TF、DF、EN的方法和基于词典的方法获取2个候选词集并进行筛选, 最终在文本分类实验的基础上确定停用词的数量。

	Download: JPG larger image
图 1 维吾尔语停用词抽取方法流程

3.3 预处理

在停用词抽取之前, 所有文本首先要进行预处理, 以减少数据噪声、改善文本表示质量。文本预处理主要分为3个步骤。

1) 分词:维吾尔语是拼音文字, 将词语之间的空格作为自然分割符进行分词。

2) 特殊字符过滤:对文本中的所有非维吾尔语字符、标点符号、数学符号以及阿拉伯数字进行过滤。

3) 词干提取:将由同一词干演变而来的不同词形进行还原, 提取词干形式。本文在进行分词和词干提取以后, 特征数量(词语数量)从75 781个减少到36 472个, 即特征总数减少48.1%, 说明词干提取可有效降低特征词语计算的复杂度。

3.4 结果统计

在对文本进行预处理之后, 分别采用TF、DF和EN方法进行统计, 按照高频词降序排列、熵值升序排列, 得到三万多条词语的统计数据。然后参照多数语言停用词表的收词情况^{[5, 15]}, 建立包含前500个词语的候选词集。表 2给出3个候选词表中的前30个词语。

下载CSV 表 2 DF、TF和EN统计结果中的前30个词语

由表 2可知, 在3种方法获取的候选词语中, 大多数词语为功能词, 且3种方法的候选词表有相同点, 说明DF、TF、EN中排在前面的助动词、连词等词语可成为停用词, 符合语言学规律。但是, madda(条款)、qanun(法律)等词语只出现在TF的词表中, 这2个词语是名词, 不能作为停用词; (新疆)、(中国)等词语只出现在EN的词表中, 这些专有名词也不应成为停用词。综上所述, 这3种方法各有优缺点, 只用一种方法获取的停用词不可靠。因此, 要将这3种方法相结合, 并参考词语的词性信息, 排除一些不能成为停用词的高频实词。

为进一步考察抽取方法的效率, 对候选词语的分布和交叉情况进行分析。3种统计方法获取的词语集合在词序-词频空间上的分布情况如图 2所示。

	Download: JPG larger image
图 2 3种方法获取的停用词分布情况

从总体上看, TF、DF、EN的频率分布趋势基本相同, 其中DF的频率分布相对分散, 但总体上符合齐夫定律(Zipf’s law)。对这3种方法的结果集进行比较, 结果如表 3所示。

下载CSV 表 3 3种方法获取的候选词集的交集情况

从表 3可以看出, 3种方法获取的词语基本相似。在TF方法和DF方法获取的500个词语中有446个相同的词语, 相似度达到89.2%。DF方法和EN方法有452个相同的词语, 相似度达到90.4%, 即DF方法和EN方法获取的词语基本相同, 但顺序不同。从交集结果看, 3种方法获取的词语具有85.5%的重复率, 其中DF方法与EN方法的相似度最高。

为排除不能成为停用词的实词, 需要对这些词集进行词性统计, 结果如表 4所示。

下载CSV 表 4 候选停用词词性分布

从表 4可以看出, DF、TF、EN这3种方法获取的词表中存在一定数量的动词、形容词和副词等, 根据词性特点, 上述词语不应成为停用词。因此, 在确定停用词时, 需要排除这些实词。剩下的代词、数词、助动词和虚词等高频词语可以成为停用词。根据3种方法的交集情况形成词集A, 其中包括92个词语, 占原词集的21.5%。

上述方法获取的词集A可能不包含符合停用词的词性要求但未排在前面的一部分功能词。因此, 本文从《现代维吾尔语详解词典》^[19]中抽取出所有的代词、数词、助动词、连词、后置词、语气词, 建立词表(共434个), 并基于第3.1节的语料进行词频统计, 结果如表 5所示。

下载CSV 表 5 《现代维吾尔语详解词典》的候选停用词分布情况

从表 5的统计数据可知, 这些词语在文本中具有两头大中间小的分布特征。其中, 使用频率高于500的词语有42个, 其累计频率(覆盖率)为85.1%, 中频词语共有173个, 约占整个语料的14.1%, 另有155个词语未在语料中出现。从停用词的性质看, 低频词和未出现的词语不需要成为停用词。因此, 在表 5统计结果的基础上, 建立包含高频词和中频词(共215个)的词集B。

词集A采用TF、DF、EN方法从语料中获取候选停用词集, 代表了动态获取的相对停用词; 词集B从《现代维吾尔语详解词典》中获取候选停用词, 代表使用频率较高的绝对停用词。为了获得完整的停用词表, 将词集A和词集B进行合并, 具体如下:

$ A \cup B = \{ x|x \in A\;{\rm{或 }}x \in B\} $

(7)

其中, A=92, B=215。通过式(7)获得包含279个词语的词表, 但是还不能确定最佳停用词数量。为比较3种方法的有效性和阈值, 需进行停用词过滤。

3.5 停用词过滤

停用词过滤是特征提取不可缺少的步骤, 其对特征计算的复杂度和准确率都有影响。本文利用文本分类方法获取停用词, 从而确定获取停用词的阈值。

3.5.1 对特征计算复杂度的影响

特征提取算法是信息检索系统的核心技术之一。降低特征空间的维数, 提高文本分类的效率和准确率是改进该技术的关键。事实上, 有些特征项(高频词语)对文本分类没有贡献。因此, 可在保证准确率的条件下, 过滤掉这些无用的特征项, 适当降低文本向量空间的维数。

本文在3.4节的基础上, 逐步增加需过滤的停用词并进行文本分类实验, 以测试停用词过滤对文本分类的影响。结果表明, 在对所有文本进行停用词过滤后, 文本特征总量(词语数量)从122 214个减少到807 257个, 停用词累计频次与总频次的比值降低了15.1%。停用词数量较少, 但其使用频率较高。在文本分类中, 去除这些高频而无用的停用词, 可有效降低特征计算的复杂度。

3.5.2 对文本分类准确率的影响

在文本特征抽取方面, 分别选用DF、EN和卡方(Chi)方法^[18]进行文本特征提取。参考文献[20-21]的方法, 使用Naive Bayes文本分类器进行实验, 实验平台在Rapid Miner上搭建。测试时采用十折交叉验证法, 即将实验语料的10%作为测试集。

在本文实验中, 准确率是指机器分类的所有文本中与人工分类结果一致的文本比重, 其计算公式如下:

$ 准确率{\rm{ = }}\frac{{正确分类的文本数}}{{实际分类的文本数}} \times 100{\rm{\% }} $

(8)

图 3给出3种方法的准确率对比。由图 3可知, 3种方法的准确率有所区别, 其中, 基于卡方方法的文本分类器的效果较好, 准确率可达80.8%, EN方法和DF方法的效果较差。当停用词数量达到200个后, 3种方法的准确率均趋于平稳, 说明文本分类系统的停用词数量可控制在200个左右。图 4给出本文方法获取的部分停用词。

	Download: JPG larger image
图 3 3种方法的准确率对比

	Download: JPG larger image
图 4 本文方法获取的部分停用词

4 结束语

本文提出一种维吾尔语停用词抽取方法, 分别运用DF、TF、EN等统计方法和基于词典的词性分布统计方法抽取候选停用词表, 经筛选后最终确定200个停用词。实验结果验证了该方法的有效性, 停用词的过滤处理可降低特征计算的复杂度, 提高文本分类的准确率。由于停用词过滤对不同应用系统的影响和要求不完全相同, 下一步将针对该问题进行研究。

参考文献

[1]	WILBUR W J. The automatic identification of stop words[J]. Journal of Information Science, 1992, 18(2): 45-55. (0)
[2]	FOX C.Lexical analysis and stoplists[M]//Fox C.Information retrieval.New York, USA: ACM Press, 1992: 102-130. (0)
[3]	HO T K. Stop word location and identification for adaptive text recognition[J]. International Journal on Document Analysis and Recognition, 2000, 3(1): 16-26. (0)
[4]	VAN-RIJSBERGEN C J.Information retrieval[EB/OL].[2018-07-01].http://openlib.org/home/krichel/courses/lis618/readings/rijsbergen79_infor_retriev.pdf. (0)
[5]	Onixtext retrieval toolkit stopword list 2[EB/OL].[2018-07-01].http://www.lextek.com/manuals/onix/stopwords2.html. (0)
[6]	XPO6.Stop word list[EB/OL].[2018-07-01].http://xpo6.com/download-stop-word-list/. (0)
[7]	ZOU Feng, WANG Fulee, DENG Xiaotian, et al.Automatic construction of Chinese stop word list[C]//Proceedings of the 5th WSEAS International Conference on Applied Computer Science.New York, USA: ACM Press, 2006: 1009-1014. (0)
[8]	顾益军, 樊孝忠, 王建华, 等. 中文停用词表的自动选取[J]. 北京理工大学学报, 2005, 25(4): 337-340. DOI:10.3969/j.issn.1001-0645.2005.04.014 (0)
[9]	马治涛.文本分类停用词处理和特征选择技术研究[D].西安: 西安电子科技大学, 2014. (0)
[10]	江兆中.基于语境和停用词驱动的中文自动分词研究[D].合肥: 合肥工业大学, 2010. (0)
[11]	蒋斌.基于停用词处理的汉语语音检索方法[D].哈尔滨: 哈尔滨工业大学, 2008. (0)
[12]	崔彩霞. 停用词的选取对文本分类效果的影响研究[J]. 太原师范学院学报(自然科学版), 2008, 7(4): 91-93. DOI:10.3969/j.issn.1672-2027.2008.04.026 (0)
[13]	巩政, 关高娃. 蒙古文停用词和英文停用词比较研究[J]. 中文信息学报, 2011, 25(4): 35-38. DOI:10.3969/j.issn.1003-0077.2011.04.007 (0)
[14]	珠杰, 李天瑞. 藏文停用词选取与自动处理方法研究[J]. 中文信息学报, 2015, 29(2): 125-132. DOI:10.3969/j.issn.1003-0077.2015.02.015 (0)
[15]	珠杰.藏文信息处理中若干关键技术研究[D].成都: 西南交通大学, 2016. (0)
[16]	田生伟, 钟军, 禹龙. 维吾尔语多词领域术语的自动抽取[J]. 中文信息学报, 2015, 29(2): 133-141. DOI:10.3969/j.issn.1003-0077.2015.02.016 (0)
[17]	图尔妮萨古丽·赛麦提.基于N-gram的维吾尔文文本分类研究与系统实现[D].乌鲁木齐: 新疆大学, 2014. (0)
[18]	艾海麦提江·阿布来提, 吐尔地·托合提, 艾斯卡尔·艾木都拉. 基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J]. 计算机应用与软件, 2012, 29(12): 27-29. DOI:10.3969/j.issn.1000-386x.2012.12.008 (0)
[19]	新疆民语委. 现代维吾尔语详解辞典[M]. 乌鲁木齐: 新疆人民出版社, 2011. (0)
[20]	阿力木江·艾沙, 吐尔根·依布拉音, 艾山·吾买尔, 等. 基于机器学习的维吾尔文文本分类研究[J]. 计算机工程与应用, 2012, 48(5): 110-112. DOI:10.3778/j.issn.1002-8331.2012.05.031 (0)
[21]	阿力木江·艾沙. 基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J]. 中国教育技术装备, 2017(12): 24-27. DOI:10.3969/j.issn.1671-489X.2017.12.024 (0)