互联网话题识别与跟踪系统设计及实现

doi:10.3969/j.issn.1000-3428.2008.19.072

计算机工程 ›› 2008, Vol. 34 ›› Issue (19): 212-214. doi: 10.3969/j.issn.1000-3428.2008.19.072

互联网话题识别与跟踪系统设计及实现

闵可锐1，赵迎宾1，刘昕1，赵泽宇2，闫华2

(1. 复旦大学计算机科学与工程系，上海 200433；2. 复旦大学信息化办公室，上海 200433)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-10-05 发布日期:2008-10-05

Design and Implementation of Topic Detection and Tracking System on Web

MIN Ke-rui1, ZHAO Ying-bin1, LIU Xin1, ZHAO Ze-yu2, YAN Hua2

(1. Dept. of Computer Science & Engineering, Fudan University, Shanghai 200433; 2. Informationization Office, Fudan University, Shanghai 200433)

Received:1900-01-01 Revised:1900-01-01 Online:2008-10-05 Published:2008-10-05

摘要/Abstract

摘要： 针对互联网上论坛和新闻网站发布的海量自然语言文本，该文设计一个话题识别与跟踪系统，将海量的数据分类整理并聚合形成各个话题。该系统的核心采用SVM方法进行文本分类，基于知识库和网络流算法实现话题的聚合，测试结果表明，文章分类的正确率达到92%，聚类的正确率达到88%，具有较高的应用价值。

关键词: 话题识别与跟踪, 信息检索, 支持向量机, 分类, 聚类

Abstract: This paper designs and implements a Topic Detection and Tracking(TDT) system to process the huge number of natural language text on Web. It classifies the text into several categories, performs clustering in each category to get the topic. The system can detect the hot topics in real-time and track some topics selected by user. The accuracy of text classification is 92%, and the accuracy of clustering is 88%. Experiment shows the feasibility of the TDT system.

Key words: Topic Detection and Tracking(TDT), information retrieval, SVM, classification, clustering

中图分类号:

TP393

闵可锐;赵迎宾;刘昕;赵泽宇;闫华. 互联网话题识别与跟踪系统设计及实现[J]. 计算机工程, 2008, 34(19): 212-214.

MIN Ke-rui; ZHAO Ying-bin; LIU Xin; ZHAO Ze-yu; YAN Hua. Design and Implementation of Topic Detection and Tracking System on Web[J]. Computer Engineering, 2008, 34(19): 212-214.

http://www.ecice06.com/CN/Y2008/V34/I19/212

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	刘金硕, 王代辰, 邓娟, 王丽娜. 基于长尾分类算法的网络不良信息分类[J]. 计算机工程, 2023, 49(8): 13-19, 28.
[3]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[4]	杨燕燕, 谢明轩, 曹江峡, 王学宾, 柳厅文, 杜彦辉. 基于原型网络的中文分类模型对抗样本生成[J]. 计算机工程, 2023, 49(8): 54-62.
[5]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[6]	杨祖赫, 黎智辉, 唐云祁, 晏于文, 宋华青. 结合语义与图像信息的行人属性识别算法[J]. 计算机工程, 2023, 49(8): 215-222, 231.
[7]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[8]	余长宏, 陆雅, 王海鑫, 高明. 基于滑动时间窗的物联网设备流量分类算法[J]. 计算机工程, 2023, 49(7): 259-268.
[9]	曹坪, 杨怀志, 薄一军, 尤嘉, 张淳杰, 李丹勇. 面向低质量裂缝图像的多知识蒸馏分类[J]. 计算机工程, 2023, 49(7): 204-213.
[10]	谢虹, 姜文刚. RRA-InceptionV3结合鲁棒稀疏表示的表情识别方法[J]. 计算机工程, 2023, 49(7): 196-203.
[11]	殷文君, 黄建华, 纪元法. 基于改进密集卷积网络的皮肤肿瘤分类方法[J]. 计算机工程, 2023, 49(7): 288-294.
[12]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[13]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[14]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[15]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.

选择文件类型/文献管理软件名称

选择包含的内容

互联网话题识别与跟踪系统设计及实现

Design and Implementation of Topic Detection and Tracking System on Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

互联网话题识别与跟踪系统设计及实现

Design and Implementation of Topic Detection and Tracking System on Web

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价