基于标签路径聚类的文本信息抽取算法

doi:10.3969/j.issn.1000-3428.2010.12.029

计算机工程 ›› 2010, Vol. 36 ›› Issue (12): 83-84. doi: 10.3969/j.issn.1000-3428.2010.12.029

基于标签路径聚类的文本信息抽取算法

刘云峰

(山西工程职业技术学院网络电教中心，太原 030009)

出版日期:2010-06-20 发布日期:2010-06-20
作者简介:刘云峰(1974－)，男，讲师、硕士，主研方向：数据库技术

Text Information Extraction Algorithm Based on Tag Path Clustering

LIU Yun-feng

(Network & Audio-visual Center, Shanxi Engineering Polytechnic, Taiyuan 030009)

Online:2010-06-20 Published:2010-06-20

摘要/Abstract

摘要： 针对网页噪音和网页非结构化信息抽取复杂度高的问题，提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理，根据网页的文档对象模型树结构进行标签路径聚类，通过自动训练的阈值和网页分割算法快速判定网页的关键部分，根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明，该算法运行速度快、准确度高。

关键词: 标签路径, 网页分割, 信息抽取, 聚类, 阈值

Abstract: This paper proposes a text information extraction algorithm based on tag path clustering to solve the high complexity problem of Web noise and unstructured information extraction. The method adopts Web noise pretreatment, carries on the tag path clustering according to the Document Object Model(DOM) tree structure of Web. The key part of the Web is determined rapidly through automatic training threshold value and Web page division algorithm, and Web text extracted templates are obtained according to nesting structure in the data block. Experimental results on different kinds of Web sites show that the algorithm is fast and accurate.

Key words: tag path, Web page segmentation, information extraction, clustering, threshold

中图分类号:

TP391

刘云峰. 基于标签路径聚类的文本信息抽取算法[J]. 计算机工程, 2010, 36(12): 83-84.

LIU Yun-Feng. Text Information Extraction Algorithm Based on Tag Path Clustering[J]. Computer Engineering, 2010, 36(12): 83-84.

http://www.ecice06.com/CN/Y2010/V36/I12/83

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[3]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[4]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[5]	付雪, 朱良宽, 黄建平, 王璟瑀, ARYSTANRyspayev. 基于改进北方苍鹰优化算法的多阈值图像分割[J]. 计算机工程, 2023, 49(7): 232-241.
[6]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[7]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[8]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[9]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[10]	李晓腾, 张盼盼, 勾智楠, 高凯. 基于多任务学习的多模态命名实体识别方法[J]. 计算机工程, 2023, 49(4): 114-119.
[11]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[12]	王禹博, 陈利锋, 许卫霞. 结合多解码器与两阶段通道选择的异常检测方法[J]. 计算机工程, 2023, 49(3): 37-48.
[13]	袁立宁, 胡皓, 刘钊. 基于多通道图卷积自编码器的图表示学习[J]. 计算机工程, 2023, 49(2): 150-160,174.
[14]	蔡瑞初, 伍运金, 陈薇, 郝志峰. 面向多元时间序列的群体因果关系发现算法[J]. 计算机工程, 2023, 49(2): 127-135.
[15]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.

选择文件类型/文献管理软件名称

选择包含的内容

基于标签路径聚类的文本信息抽取算法

Text Information Extraction Algorithm Based on Tag Path Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于标签路径聚类的文本信息抽取算法

Text Information Extraction Algorithm Based on Tag Path Clustering

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价