信息检索用户查询语句的停用词过滤

doi:10.3969/j.issn.1000-3428.2007.06.068

计算机工程 ›› 2007, Vol. 33 ›› Issue (06): 195-197.

信息检索用户查询语句的停用词过滤

熊文新1,2，宋柔2

(1. 北京外国语大学中国外语教育研究中心，北京 100089；2. 北京语言大学语言信息处理研究所，北京 100083)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-03-20 发布日期:2007-03-20

Removal of Stop Word in Users’ Request for Information Retrieval

XIONG Wenxin1,2, SONG Rou2

(1. National Research Centre for Foreign Language Education, Beijing Foreign Studies University, Beijing 100089; 2. Center for Language Information Processing, Beijing Language and Culture University, Beijing 100083)

Received:1900-01-01 Revised:1900-01-01 Online:2007-03-20 Published:2007-03-20

摘要/Abstract

摘要： 针对以自然语言形式提出的查询请求，区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照，提出汉语通用停用词和查询专用的相对停用词，采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点，给出了在线动态识别停用词的方法。实验结果表明，该文的方法比单纯根据静态停用词表标注效果要好。

关键词: 用户查询, 停用词, 构造, 识别

Abstract: Information need expression and information content words are distinguished for users requests in natural language. Based on the analysis of 200 000 query sentences and the People’s Daily corpus, absolute stop word and relative stop word are proposed. The candidate stop word lists are built offline by means of left/right entropy, Ngram and KL divergence. With the information of Bigram and different position distributions, this paper gives a dynamic identification algorithm for the actual stop word in users’ request expression. The experiment shows the method is superior to the baseline which only consults a stop word list.

Key words: Users request, Stop word, Building, Identification

熊文新;宋柔. 信息检索用户查询语句的停用词过滤[J]. 计算机工程, 2007, 33(06): 195-197.

XIONG Wenxin; SONG Rou. Removal of Stop Word in Users’ Request for Information Retrieval[J]. Computer Engineering, 2007, 33(06): 195-197.

https://www.ecice06.com/CN/Y2007/V33/I06/195

[1]	蒋杰平, 王明文. 基于时空置换注意力机制的残差行为识别模型[J]. 计算机工程, 2025, 51(4): 119-128.
[2]	徐永刚, 孙琦烜, 李凡甲, 程健维, 戴佳俊. 基于扩展时间和时空特征融合图卷积网络的骨架行为识别[J]. 计算机工程, 2025, 51(4): 281-292.
[3]	杜晨阳, 张雪英, 黄丽霞, 李娟. 基于改进高效通道注意力机制的多特征语音情感识别[J]. 计算机工程, 2025, 51(4): 97-106.
[4]	董红亮, 钮焱, 孙杨, 李军. 基于记忆胶囊与注意力的语音情感识别[J]. 计算机工程, 2025, 51(4): 169-177.
[5]	耿霞, 汪尧. 基于CLIP增强细粒度特征的换装行人重识别方法[J]. 计算机工程, 2025, 51(4): 293-302.
[6]	郭俊博, 马祥. 非凸混合范数误差编码人脸图像识别方法[J]. 计算机工程, 2025, 51(3): 208-215.
[7]	杨竣辉, 李苏晋. 融合位置和实体类别信息的中文命名实体识别[J]. 计算机工程, 2025, 51(3): 113-121.
[8]	阳佩珉, 闵华松. 嵌入式肌电腕带实时采集与识别系统设计[J]. 计算机工程, 2025, 51(2): 259-268.
[9]	许明, 屈泰澎, 姜彦吉. 改进YOLOv7在复杂场景下的交通标志检测算法[J]. 计算机工程, 2025, 51(2): 335-343.
[10]	安国成, 王晓龙, 江波, 幸健. 复杂环境下高速服务区禁停检测算法[J]. 计算机工程, 2025, 51(2): 356-364.
[11]	李猛坤, 袁晨, 王琪, 赵冲, 陈景轩, 刘立峰. 基于改进YOLOv8算法的在线听课行为识别模型研究[J]. 计算机工程, 2025, 51(1): 287-294.
[12]	严洁, 张烨菲, 张显飞. 基于CAE和改进式VGGNet的心电身份识别算法[J]. 计算机工程, 2025, 51(1): 295-303.
[13]	易鹏, 杨晔, 严仕嘉. 基于MPCNN模型的sEMG快速迁移学习的手势识别应用研究[J]. 计算机工程, 2025, 51(1): 304-311.
[14]	王晓路, 汶建荣. 基于运动-时间感知的人体动作识别方法[J]. 计算机工程, 2025, 51(1): 216-224.
[15]	胡涌涛, 黄洪琼. 结合特征融合和通道注意力的多分支换装行人重识别[J]. 计算机工程, 2025, 51(1): 225-234.

选择文件类型/文献管理软件名称

选择包含的内容

信息检索用户查询语句的停用词过滤

Removal of Stop Word in Users’ Request for Information Retrieval

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

信息检索用户查询语句的停用词过滤

Removal of Stop Word in Users’ Request for Information Retrieval

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价