基于概念网络的短文本分类方法

doi:10.3969/j.issn.1000-3428.2010.21.002

计算机工程 ›› 2010, Vol. 36 ›› Issue (21): 4-6. doi: 10.3969/j.issn.1000-3428.2010.21.002

基于概念网络的短文本分类方法

林小俊1，张猛1，暴筱1，李军2，吴玺宏1

(1. 北京大学机器感知与智能教育部重点实验室，北京 100871；2. 北京市朝阳区档案局，北京 100020)

出版日期:2010-11-05 发布日期:2010-11-03
作者简介:林小俊(1981－)，男，博士研究生，主研方向：自然语言处理，知识表示；张猛，博士研究生；暴筱，硕士研究生；李军，学士；吴玺宏，教授
基金资助:
国家自然科学基金资助项目(60535030, 60605016)；国家“863”计划基金资助项目(2006AA012196)；北京市档案科技基金资助项目(2009-13)

Short-text Classification Method Based on Concept Network

LIN Xiao-jun1, ZHANG Meng1, BAO Xiao1, LI Jun2, WU Xi-hong1

(1. Key Laboratory of Machine Perception, Ministry of Education, Peking University, Beijing 100871, China; 2. Beijing Chaoyang District Archives Bureau, Beijing 100020, China)

Online:2010-11-05 Published:2010-11-03

摘要/Abstract

摘要： 针对档案领域的短文本分类，设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体，利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络，在此基础上定义概念网络间的语义相似度，从而实现档案的自动分类。实验结果表明，相比传统基于特征选择的短文本分类方法，该方法的分类错误率下降了24.2%，可有效改善系统性能。

关键词: 短文本分类, 概念网络, 文档相似度, 领域本体

Abstract: Aiming at the short-text classification in archive domain, this paper designs an automatic classification method based on concept network. It constructs domain ontology by analyzing the short-text language characteristic in domain, and converts the short-text of title to structural concept network which expresses through Resource Description Framework(RDF) by means of natural language processing technology. On that basis, it defines a similarity measure for archives to classify the retention period of archives. Experimental results show that this method gets a relative 24.2% decrease in classification error rate, and it improves the system performance compared with traditional short-text classification method based on characteristic selection.

Key words: short-text classification, concept network, document similarity, domain ontology

中图分类号:

TP393

林小俊, 张猛, 暴筱, 李军, 吴玺宏. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21): 4-6.

LIN Xiao-Dun, ZHANG Meng, BAO Xiao, LI Jun, TUN Xi-Hong. Short-text Classification Method Based on Concept Network[J]. Computer Engineering, 2010, 36(21): 4-6.

http://www.ecice06.com/CN/Y2010/V36/I21/4

[1]	袁自勇, 高曙, 曹姣, 陈良臣. 基于异构图卷积网络的小样本短文本分类方法[J]. 计算机工程, 2021, 47(12): 87-94.
[2]	段丹丹, 唐加山, 温勇, 袁克海. 基于BERT模型的中文短文本分类算法[J]. 计算机工程, 2021, 47(1): 79-86.
[3]	丁辰晖, 夏鸿斌, 刘渊. 融合知识图谱与注意力机制的短文本分类模型[J]. 计算机工程, 2021, 47(1): 94-100.
[4]	安敬民, 李冠宇. 基于图熵极值理论的领域概念聚类方法[J]. 计算机工程, 2020, 46(6): 88-93.
[5]	叶施仁,孙宁. 基于概念聚类的领域本体图中文文本分类[J]. 计算机工程, 2016, 42(12): 181-187.
[6]	莫媛媛，郭剑毅，余正涛，蒋年树，线岩团. 基于CCRF的领域本体概念上下位关系抽取[J]. 计算机工程, 2014, 40(6): 138-141.
[7]	王永明, 张英俊, 谢斌红, 潘理虎, 陈立潮. 基于模糊聚类优化的语义Web服务发现[J]. 计算机工程, 2013, 39(7): 219-223.
[8]	胡璇, 杨春晖, 黄茂生. 航电系统软件需求知识本体构建及评价[J]. 计算机工程, 2013, 39(3): 56-62.
[9]	郭建兵, 崔志明, 陈明, 赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58.
[10]	常鹏, 冯楠, 马辉. 一种基于词共现的文档聚类算法[J]. 计算机工程, 2012, 38(2): 213-214.
[11]	韦婷婷, 聂登国, 王驹, 蒋运承. 基于领域本体的文本分类方法[J]. 计算机工程, 2012, 38(15): 62-65.
[12]	叶琼, 李绍稳, 张友华, 刘恺. 农业领域本体概念的云化方法研究[J]. 计算机工程, 2012, 38(14): 287-289.
[13]	徐小良, 陈金奎, 吴优. 基于聚类优化的Web服务发现方法[J]. 计算机工程, 2011, 37(9): 68-70.
[14]	陈宇, 朱建锋, 吴毅坚, 赵文耘. 一种基于领域本体的新术语扩充方法[J]. 计算机工程, 2011, 37(7): 24-27,43.
[15]	高雅田, 李春生, 富宇. 基于关系数据分析的知识服务模型[J]. 计算机工程, 2011, 37(5): 56-58.

选择文件类型/文献管理软件名称

选择包含的内容

基于概念网络的短文本分类方法

Short-text Classification Method Based on Concept Network

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于概念网络的短文本分类方法

Short-text Classification Method Based on Concept Network

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价