信息检索用户查询语句的停用词过滤

doi:10.3969/j.issn.1000-3428.2007.06.068

计算机工程 ›› 2007, Vol. 33 ›› Issue (06): 195-197. doi: 10.3969/j.issn.1000-3428.2007.06.068

信息检索用户查询语句的停用词过滤

熊文新1,2，宋柔2

(1. 北京外国语大学中国外语教育研究中心，北京 100089；2. 北京语言大学语言信息处理研究所，北京 100083)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-03-20 发布日期:2007-03-20

Removal of Stop Word in Users’ Request for Information Retrieval

XIONG Wenxin1,2, SONG Rou2

(1. National Research Centre for Foreign Language Education, Beijing Foreign Studies University, Beijing 100089; 2. Center for Language Information Processing, Beijing Language and Culture University, Beijing 100083)

Received:1900-01-01 Revised:1900-01-01 Online:2007-03-20 Published:2007-03-20

摘要/Abstract

摘要： 针对以自然语言形式提出的查询请求，区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照，提出汉语通用停用词和查询专用的相对停用词，采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点，给出了在线动态识别停用词的方法。实验结果表明，该文的方法比单纯根据静态停用词表标注效果要好。

关键词: 用户查询, 停用词, 构造, 识别

Abstract: Information need expression and information content words are distinguished for users requests in natural language. Based on the analysis of 200 000 query sentences and the People’s Daily corpus, absolute stop word and relative stop word are proposed. The candidate stop word lists are built offline by means of left/right entropy, Ngram and KL divergence. With the information of Bigram and different position distributions, this paper gives a dynamic identification algorithm for the actual stop word in users’ request expression. The experiment shows the method is superior to the baseline which only consults a stop word list.

Key words: Users request, Stop word, Building, Identification

熊文新;宋柔. 信息检索用户查询语句的停用词过滤[J]. 计算机工程, 2007, 33(06): 195-197.

XIONG Wenxin; SONG Rou. Removal of Stop Word in Users’ Request for Information Retrieval[J]. Computer Engineering, 2007, 33(06): 195-197.

http://www.ecice06.com/CN/Y2007/V33/I06/195

[1]	丰芳宇, 罗晓曙, 蒙志明, 王广宇. 基于抗混叠残差注意力网络的人脸表情识别[J]. 计算机工程, 2023, 49(8): 190-198.
[2]	韩华, 黄丽, 田瑾, 王春媛. 基于双中间模态的四流网络跨模态行人重识别[J]. 计算机工程, 2023, 49(8): 302-309.
[3]	杨长沛, 廖列法. 基于门控空洞卷积特征融合的中文命名实体识别[J]. 计算机工程, 2023, 49(8): 85-95.
[4]	杨祖赫, 黎智辉, 唐云祁, 晏于文, 宋华青. 结合语义与图像信息的行人属性识别算法[J]. 计算机工程, 2023, 49(8): 215-222, 231.
[5]	马娜, 温廷新, 贾旭, 李晓会. 复杂光照条件下自适应的车脸重识别模型[J]. 计算机工程, 2023, 49(8): 275-282, 290.
[6]	张家熔, 苑津莎, 许珈宁, 罗志宏. 基于多元信息嵌入与协同神经网络的力学实体识别算法[J]. 计算机工程, 2023, 49(7): 125-134.
[7]	闫兴亚, 匡娅茜, 白光睿, 李月. 基于深度学习的学生课堂行为识别方法[J]. 计算机工程, 2023, 49(7): 251-258.
[8]	费蓉, 马梦阳, 张晓, 黑新宏, 徐庆征, 邱原. 基于轨迹预测与冲突检测的自动驾驶碰撞检测模型[J]. 计算机工程, 2023, 49(7): 10-20.
[9]	郭艳霞, 金勇, 唐宏, 彭金枝. 基于动态卷积与残差门控的多模态情感识别[J]. 计算机工程, 2023, 49(7): 94-101.
[10]	谢虹, 姜文刚. RRA-InceptionV3结合鲁棒稀疏表示的表情识别方法[J]. 计算机工程, 2023, 49(7): 196-203.
[11]	陈明, 刘蓉, 张晔. 基于多重注意力机制的中文医疗实体识别[J]. 计算机工程, 2023, 49(6): 314-320.
[12]	宋羽凯, 谢江. 基于多任务学习的轻量级语音情感识别模型[J]. 计算机工程, 2023, 49(5): 122-128.
[13]	毛亮, 赵林均, 余敦辉, 孙斌. 基于知识蒸馏的企业命名实体识别模型[J]. 计算机工程, 2023, 49(5): 90-96.
[14]	张博熠, 者甜甜, 赵新旭, 刘庆华, 王家晨. 基于眼嘴状态识别网络的疲劳驾驶检测[J]. 计算机工程, 2023, 49(5): 310-320.
[15]	李宜亭, 屈丹, 杨绪魁, 张昊, 沈小龙. 基于分解门控注意力单元的高效Conformer模型[J]. 计算机工程, 2023, 49(5): 73-80.

选择文件类型/文献管理软件名称

选择包含的内容

信息检索用户查询语句的停用词过滤

Removal of Stop Word in Users’ Request for Information Retrieval

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

信息检索用户查询语句的停用词过滤

Removal of Stop Word in Users’ Request for Information Retrieval

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价