Web权威信息自动提取技术的研究及应用

doi:10.3969/j.issn.1000-3428.2008.13.020

计算机工程 ›› 2008, Vol. 34 ›› Issue (13): 54-55,6. doi: 10.3969/j.issn.1000-3428.2008.13.020

Web权威信息自动提取技术的研究及应用

李净，袁小华，沈晓晶

(1. 上海水产大学信息学院，上海 200090；2. 同济大学电信学院，上海 201804)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-07-05 发布日期:2008-07-05

Study and Application of Automation Extraction Technology from Web Authoritative Information

LI Jing, YUAN Xiao-hua, SHEN Xiao-jing

(1. School of Information, Shanghai Fishery University, Shanghai 200090; 2. School of Telecommunication, Tongji University, Shanghai 201804)

Received:1900-01-01 Revised:1900-01-01 Online:2008-07-05 Published:2008-07-05

摘要/Abstract

摘要： WWW为各行各业提供了大量的信息，但如何准确地从这些信息中提取出相关领域的权威信息是目前研究的热点问题之一。该文提出评判网站信息的多因素综合评估模型，该模型对网站的权威值进行合理计算，给出基于表格数据的语法树模型，完成了表格数据的自动提取。通过实例证明，该方法很好地解决了权威信息的准确和自动提取。

关键词: 数据提取, Web数据挖掘, 语法树, 多因素综合评估, 表格

Abstract: Although WWW has provided much information for all fields, how to extract the authoritative information from related fields exactly is becoming a hot topic. This paper provides a process of extracting table data it provides a multiple factors assessment model to judge the Web page. Using the model, the authoritative value of Web page can be gained correctly. It provides a table-based phrase tree method to extract the interesting data automatically. Example proves that this method can extract the authoritative information exactly and automatically.

Key words: data extraction, Web data mining, phrasing tree, multiple factors assessment, table

中图分类号:

TP311.132

李净;袁小华;沈晓晶. Web权威信息自动提取技术的研究及应用[J]. 计算机工程, 2008, 34(13): 54-55,6.

LI Jing; YUAN Xiao-hua; SHEN Xiao-jing. Study and Application of Automation Extraction Technology from Web Authoritative Information[J]. Computer Engineering, 2008, 34(13): 54-55,6.

http://www.ecice06.com/CN/Y2008/V34/I13/54

[1]	刘金硕, 黄朔, 邓娟. 面向PMVS算法的自动两级并行翻译方法[J]. 计算机工程, 2022, 48(12): 16-23.
[2]	黄晓伟, 范贵生, 虞慧群, 杨星光. 基于重子节点抽象语法树的软件缺陷预测[J]. 计算机工程, 2021, 47(12): 230-235,248.
[3]	徐少峰, 潘文韬, 熊赟, 朱扬勇. 基于结构感知双编码器的代码注释自动生成[J]. 计算机工程, 2020, 46(2): 304-308,314.
[4]	孙伟娟,王宁. 基于一致性支持度的实体top-k扩展算法[J]. 计算机工程, 2019, 45(4): 181-188.
[5]	王秀超,缪炜恺,王以松,包丹珠,杨静. 一种面向列车车载控制软件的需求分析方法[J]. 计算机工程, 2017, 43(7): 48-53.
[6]	张丽方,王宁,齐飞. Web表格的实体列发现算法[J]. 计算机工程, 2017, 43(12): 165-172.
[7]	韦航,王永恒. 基于主题的中文微博情感分析[J]. 计算机工程, 2015, 41(9): 238-244.
[8]	吴通,陈雨亭. 基于动态分析的JavaScript 代码推荐[J]. 计算机工程, 2014, 40(10): 66-70.
[9]	范惊，章程. 基于静态分析的高精度程序日志解析技术[J]. 计算机工程, 2013, 39(10): 68-71,75.
[10]	王正鹏, 谢志鹏, 邱培超. 语义关系相似度计算中的数据标准化方法比较[J]. 计算机工程, 2012, 38(10): 38-40.
[11]	杨海涛. 复杂表头表格的关系模式表示[J]. 计算机工程, 2011, 37(4): 49-51.
[12]	方霞, 吕红, 尹青, 张杰, 王丽娜. 基于特征表达式的算法识别技术[J]. 计算机工程, 2011, 37(24): 32-35.
[13]	王绪, 平西建, 周林, 王会鹏. 基于投影特征与结构特征的表格图像识别[J]. 计算机工程, 2011, 37(01): 210-212.
[14]	林凤群, 陈伯成, 袁博, 刘文煌, 李晓燕, MAK Andy,王洪洋. RFID轻量型中间件的构成与实现[J]. 计算机工程, 2010, 36(17): 77-80,86.
[15]	吴小兰. 基于PageRank算法改进的元胞自动机模型[J]. 计算机工程, 2009, 35(9): 217-219.

选择文件类型/文献管理软件名称

选择包含的内容

Web权威信息自动提取技术的研究及应用

Study and Application of Automation Extraction Technology from Web Authoritative Information

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

Web权威信息自动提取技术的研究及应用

Study and Application of Automation Extraction Technology from Web Authoritative Information

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价