基于DOM修剪的藏文Web信息提取

doi:10.3969/j.issn.1000-3428.2008.24.020

计算机工程 ›› 2008, Vol. 34 ›› Issue (24): 58-60.

基于DOM修剪的藏文Web信息提取

珠杰，欧珠，格桑多吉

(西藏大学计算机科学与技术系，拉萨 850000)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-12-20 发布日期:2008-12-20

Tibetan Web Information Extraction Based on DOM Pruning

Zhu Jie, Ngodrup, GeSang Dorje

(Department of Computer Science and Technology, Tibetan University, Lhasa 850000)

Received:1900-01-01 Revised:1900-01-01 Online:2008-12-20 Published:2008-12-20

摘要/Abstract

摘要： 随着互联网的普及和藏文信息技术的不断发展，出现了大量的藏文网站。该文根据藏文“音节点”的特征识别藏文网页并进行抓取。在建立DOM树的基础上，分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实，该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。

关键词: 音节点, DOM树, 藏文, Web信息提取

Abstract: With the widespread use of Internet and the development of Tibetan information technology, there are a lot of Websites of Tibetan information resource. This paper identifies Tibetan Web page and crawls it according to features of Tibetan syllable dot. Based on DOM, it analyzes relevance between linked and non-linked Web page text with topical information via pruning semantics algorithm to extract Tibetan topical information. Test result shows that the algorithm to identify and extract in the Tibetan Websites topical information has good adaptation.

Key words: syllable dot, DOM tree, Tibetan, Web information extraction

中图分类号:

TP393

珠杰;欧珠;格桑多吉. 基于DOM修剪的藏文Web信息提取[J]. 计算机工程, 2008, 34(24): 58-60.

Zhu Jie; Ngodrup; GeSang Dorje. Tibetan Web Information Extraction Based on DOM Pruning[J]. Computer Engineering, 2008, 34(24): 58-60.

https://www.ecice06.com/CN/Y2008/V34/I24/58

[1]	柔特, 色差甲, 才让加. 藏文句义分割方法[J]. 计算机工程, 2020, 46(2): 286-291.
[2]	柔特,才让加,孙茂松. 基于语序变换的藏文复述句生成方法[J]. 计算机工程, 2018, 44(4): 231-235.
[3]	徐涛，于洪志，加羊吉. 基于改进卡方统计量的藏文文本表示方法[J]. 计算机工程, 2014, 40(6): 185-189.
[4]	郭建兵, 崔志明, 陈明, 赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程, 2012, 38(5): 56-58.
[5]	张晨, 汪永益, 王雄, 施凡. 基于网页DOM树比对的SQL注入漏洞检测[J]. 计算机工程, 2012, 38(18): 111-115.
[6]	羊毛卓玛, 高定国. 藏文自动分词中未登录词处理方法研究[J]. 计算机工程, 2012, 38(17): 46-48.
[7]	唐朝伟, 李俊, 苗光胜, 杜欣慧. 基于DOM树的视频元数据抽取系统[J]. 计算机工程, 2012, 38(08): 268-270.
[8]	张志远, 徐涛, 冯霞. 航班信息抽取规则的自动生成技术[J]. 计算机工程, 2011, 37(6): 65-67.
[9]	黄歆;桑楠. 基于DOM树和递归X-Y分割算法的Zone树模型[J]. 计算机工程, 2009, 35(5): 53-55.
[10]	刘亚清;陈　荣. 基于隐马尔可夫模型的Web信息抽取[J]. 计算机工程, 2009, 35(18): 25-27.
[11]	赵燕娟;李　廉;苏　伟;李冠宇. 基于MathML的网络数学公式编辑器的实现[J]. 计算机工程, 2008, 34(7): 76-78.
[12]	胡仁龙;袁春风;武港山;濮小佳. 基于重复模式的自动Web信息抽取[J]. 计算机工程, 2008, 34(22): 73-76.
[13]	于洪志;何向真. 基于Web页面的藏文在线输入技术[J]. 计算机工程, 2008, 34(18): 260-262.
[14]	齐爱琴;申永军;张桂东. 藏汉文身份证制作系统的设计与实现[J]. 计算机工程, 2006, 32(19): 273-274.

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM修剪的藏文Web信息提取

Tibetan Web Information Extraction Based on DOM Pruning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于DOM修剪的藏文Web信息提取

Tibetan Web Information Extraction Based on DOM Pruning

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics

本文评价