计算机工程 ›› 2012, Vol. 38 ›› Issue (21): 153-156,160.doi: 10.3969/j.issn.1000-3428.2012.21.041

• 人工智能及识别技术 • 上一篇    下一篇

基于正文相关度的维吾尔网页正文提取

王 瑞1,2,周 喜1,李 晓1   

  1. (1中国科学院新疆理化技术研究所,乌鲁木齐 830011;2. 中国科学院研究生院,北京 100049)
  • 收稿日期:2012-02-07 出版日期:2012-11-05 发布日期:2012-11-02
  • 作者简介:王 瑞(1985-),男,硕士研究生,主研方向:自然语言理解;周 喜,副研究员;李 晓,研究员、博士生导师
  • 基金项目:
    新疆维吾尔自治区高技术研究发展基金资助项目(201012112);新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)

Content Extraction of Uighur Web Based on Content Correlativity

WANG Rui 1,2, ZHOU Xi 1, LI Xiao 1   

  1. (1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China)
  • Received:2012-02-07 Online:2012-11-05 Published:2012-11-02

摘要: 网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。

关键词: 正文提取, 正文相关度, 信息安全, 自然语言处理, 正文密度

Abstract: In addition to the main content, most Uighur Web contain noises such as navigation panels, advertisements which are not related to the main content. To improve the efficiency of security detection, this paper presents a content extraction algorithm of Uighur Web based on Web text correlativity, and designs the model of text density and content scale to improve the algorithm. Experimental result shows that this algorithm can extract the main content from the Uighur Web efficiently.

Key words: content extraction, content correlativity, information security, natural language processing, content density

中图分类号: