网页信息抽取及建库系统C#实现

doi:10.3969/j.issn.1000-3428.2006.16.019

计算机工程 ›› 2006, Vol. 32 ›› Issue (16): 49-51.

网页信息抽取及建库系统C#实现

刘华

暨南大学华文学院应用语言学系，广州 510610

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2006-08-20 发布日期:2006-08-20

Web Information Extraction and Corpus Construction System with C#

LIU Hua

Department of Applied Linguistics, College of Chinese Language and Culture, Jinan University, Guangzhou 510610

Received:1900-01-01 Revised:1900-01-01 Online:2006-08-20 Published:2006-08-20

摘要/Abstract

摘要： 围绕网页内容解析、数据清洗、语料库信息字段定义和XML数据存储4个方面，该文介绍了网页信息自动抽取及建库的原理，并使用C#语言在微软.NET Framework下完成了一个网页信息自动抽取及建库系统，该系统具有智能性和个性化的特点，适合构建文本分类、话题识别和信息检索的大型训练(测试)语料集。

关键词: 内容解析, 信息抽取, 语料库, XML

Abstract: This paper describes an intelligentized and individuation system for Web information extraction and corpus construction with C#. which includes Web pages content parsing, data cleaning, information extraction, field definition and storing with XML of corpus. It adapts to the construction of training and test corpus for text classing, topic identify and information

Key words: Content parsing, Information extraction, Corpus, XML

中图分类号:

TP311.12

刘华. 网页信息抽取及建库系统C#实现[J]. 计算机工程, 2006, 32(16): 49-51.

LIU Hua. Web Information Extraction and Corpus Construction System with C#[J]. Computer Engineering, 2006, 32(16): 49-51.

https://www.ecice06.com/CN/Y2006/V32/I16/49

[1]	杨冬菊, 黄俊涛. 基于大语言模型的中文科技文献标注方法[J]. 计算机工程, 2024, 50(9): 113-120.
[2]	赵大地, 王恪铭. 基于状态图转形式化B模型的安全苛求系统开发方法[J]. 计算机工程, 2024, 50(11): 173-186.
[3]	李鸿鹏, 马博, 杨雅婷, 王磊, 王震, 李晓. 基于槽位语义增强提示学习的篇章级事件抽取方法[J]. 计算机工程, 2023, 49(9): 23-31.
[4]	衡红军, 苗菁. 语义与句法信息加强的二元标记实体关系联合抽取[J]. 计算机工程, 2023, 49(4): 77-84.
[5]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[6]	张军莲, 张一帆, 汪鸣泉, 黄永健. 基于图卷积神经网络的中文实体关系联合抽取[J]. 计算机工程, 2021, 47(12): 103-111.
[7]	何阳宇, 晏雷, 易绵竹, 李宏欣. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304.
[8]	何卓桁, 刘志勇, 李璐, 李长明, 张琳. 异构文本数据转换中XML解析方法对比研究[J]. 计算机工程, 2020, 46(7): 286-293,299.
[9]	陈曦, 朱小栋, 高广阔, 肖芳雄. 基于混合向量模型的中文评论情感分析[J]. 计算机工程, 2020, 46(1): 309-314.
[10]	王文奇,李勇,关云云. 文本信息深度提取及多关键词并行匹配技术研究[J]. 计算机工程, 2018, 44(12): 281-287.
[11]	李雁群,何云琪,钱龙华,周国栋. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82.
[12]	王辉,郁波,洪宇,肖仰华. 基于知识图谱的Web信息抽取系统[J]. 计算机工程, 2017, 43(6): 118-124.
[13]	赵锦明,钱磊,吴东,郝子宇. 基于蚁群平台的大规模分布式XML数据库[J]. 计算机工程, 2017, 43(3): 24-31.
[14]	李明耀,杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207.
[15]	莫源源,潘丽同,严馨,余正涛,刘小惠. 基于最大熵模型的柬英平行网页获取[J]. 计算机工程, 2016, 42(5): 194-200.

选择文件类型/文献管理软件名称

选择包含的内容

网页信息抽取及建库系统C#实现

Web Information Extraction and Corpus Construction System with C#

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

网页信息抽取及建库系统C#实现

Web Information Extraction and Corpus Construction System with C#

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价