重复串特征提取算法及其在文本聚类中的应用

doi:10.3969/j.issn.1000-3428.2007.02.022

计算机工程 ›› 2007, Vol. 33 ›› Issue (02): 65-67. doi: 10.3969/j.issn.1000-3428.2007.02.022

重复串特征提取算法及其在文本聚类中的应用

胡吉祥1,2，许洪波1，刘悦1，程学旗1

(1. 中国科学院计算技术研究所，北京 100080；2. 中国科学院研究生院，北京 100039)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-01-20 发布日期:2007-01-20

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering

HU Jixiang1, 2, XU Hongbo1, LIU Yue1, CHENG Xueqi1

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080; 2. Graduate School, Chinese Academy of Sciences, Beijing 100039)

Received:1900-01-01 Revised:1900-01-01 Online:2007-01-20 Published:2007-01-20

摘要/Abstract

摘要： 针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战，该文提出一种基于重复串的特征提取方法，可以从文本中提取有意义的特征，且对于中文无需分词。实验表明，该方法可以降低特征空间维度，同时能有效改善传统以词为特征的聚类算法的性能。

关键词: 文本聚类, 特征提取, 重复串

Abstract: This paper proposes a novel term extraction method based on repeats, which can extract meaningful terms from text. For Chinese, it need not word segmentation. Experimental results show that the proposed approach can remarkably reduce the dimensionality and effectively improve the performance of traditional clustering algorithms.

Key words: Text clustering, Term extraction, Repeats

胡吉祥;许洪波;刘悦;程学旗. 重复串特征提取算法及其在文本聚类中的应用[J]. 计算机工程, 2007, 33(02): 65-67.

HU Jixiang; ; XU Hongbo; LIU Yue; CHENG Xueqi. Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering[J]. Computer Engineering, 2007, 33(02): 65-67.

http://www.ecice06.com/CN/Y2007/V33/I02/65

[1]	马娜, 温廷新, 贾旭, 李晓会. 复杂光照条件下自适应的车脸重识别模型[J]. 计算机工程, 2023, 49(8): 275-282, 290.
[2]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[3]	宋羽凯, 谢江. 基于多任务学习的轻量级语音情感识别模型[J]. 计算机工程, 2023, 49(5): 122-128.
[4]	关日鹏, 况立群, 焦世超, 熊风光, 韩燮. 多模态特征融合与词嵌入驱动的三维检索方法[J]. 计算机工程, 2023, 49(4): 101-107,113.
[5]	李培育, 张雅丽. 基于改进SRGAN模型的人脸图像超分辨率重建[J]. 计算机工程, 2023, 49(4): 199-205.
[6]	耿磊, 傅洪亮, 陶华伟, 卢远, 郭歆莹, 赵力. 基于动态卷积递归神经网络的语音情感识别[J]. 计算机工程, 2023, 49(4): 125-130,137.
[7]	何悦, 陈广胜, 景维鹏, 徐泽堃. 基于深度多相似性哈希方法的遥感图像检索[J]. 计算机工程, 2023, 49(2): 206-212.
[8]	高庆吉, 李天昊, 邢志伟, 刘佩佩. 基于区块特征融合的点云语义分割方法[J]. 计算机工程, 2022, 48(9): 37-44,54.
[9]	闫静, 张雪英, 李凤莲, 陈桂军, 黄丽霞. 结合栈式监督AE与可变加权ELM的回归预测模型[J]. 计算机工程, 2022, 48(8): 62-69,76.
[10]	李晨, 侯进, 李金彪, 陈子锐. 基于注意力与残差级联的红外与可见光图像融合方法[J]. 计算机工程, 2022, 48(7): 234-240.
[11]	崔云轩, 刘桂华, 余东应, 郭中远, 张文凯. 点线特征融合的激光雷达单目惯导SLAM系统[J]. 计算机工程, 2022, 48(7): 254-263.
[12]	李柯泉, 陈燕, 刘佳晨, 牟向伟. 基于深度学习的目标检测算法综述[J]. 计算机工程, 2022, 48(7): 1-12.
[13]	汪荣贵, 李懂, 杨娟, 薛丽霞. 基于跨域特征关联与聚类的无监督行人重识别[J]. 计算机工程, 2022, 48(3): 229-235,243.
[14]	谢斌红, 秦耀龙, 张英俊. 基于学习主动中心轮廓模型的场景文本检测[J]. 计算机工程, 2022, 48(3): 244-252,262.
[15]	孙同晶, 闫志明, 范军, 张豪. 基于曲率和的主动声呐干涉条纹特征表征方法[J]. 计算机工程, 2022, 48(11): 49-54.

选择文件类型/文献管理软件名称

选择包含的内容

重复串特征提取算法及其在文本聚类中的应用

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

重复串特征提取算法及其在文本聚类中的应用

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价