基于正文相关度的维吾尔网页正文提取

doi:10.3969/j.issn.1000-3428.2012.21.041

计算机工程 ›› 2012, Vol. 38 ›› Issue (21): 153-156,160. doi: 10.3969/j.issn.1000-3428.2012.21.041

基于正文相关度的维吾尔网页正文提取

王瑞^1,2，周喜¹，李晓¹

(1中国科学院新疆理化技术研究所，乌鲁木齐 830011；2. 中国科学院研究生院，北京 100049)

收稿日期:2012-02-07 出版日期:2012-11-05 发布日期:2012-11-02
作者简介:王瑞(1985－)，男，硕士研究生，主研方向：自然语言理解；周喜，副研究员；李晓，研究员、博士生导师
基金资助:
新疆维吾尔自治区高技术研究发展基金资助项目(201012112)；新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)

Content Extraction of Uighur Web Based on Content Correlativity

WANG Rui ^1,2, ZHOU Xi¹, LI Xiao¹

(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China; 2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China)

Received:2012-02-07 Online:2012-11-05 Published:2012-11-02

摘要/Abstract

摘要： 网页表达的主要信息通常隐藏在大量无关的结构与文字中，使正文信息不能被迅速获取，影响文本检测的效率。为此，根据维吾尔网页的非规范化编码、论坛型网页较多等特点，提出一种基于正文相关度的正文提取算法，并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明，该算法具有较好的正文提取正确率和召回率，能够有效地从维吾尔网页中提取到所需的正文信息。

Abstract: In addition to the main content, most Uighur Web contain noises such as navigation panels, advertisements which are not related to the main content. To improve the efficiency of security detection, this paper presents a content extraction algorithm of Uighur Web based on Web text correlativity, and designs the model of text density and content scale to improve the algorithm. Experimental result shows that this algorithm can extract the main content from the Uighur Web efficiently.

Key words: content extraction, content correlativity, information security, natural language processing, content density

中图分类号:

TP391

王瑞, 周喜, 李晓. 基于正文相关度的维吾尔网页正文提取[J]. 计算机工程, 2012, 38(21): 153-156,160.

WANG Rui, ZHOU Chi, LI Xiao. Content Extraction of Uighur Web Based on Content Correlativity[J]. Computer Engineering, 2012, 38(21): 153-156,160.

http://www.ecice06.com/CN/Y2012/V38/I21/153

[1]	郭艳霞, 金勇, 唐宏, 彭金枝. 基于动态卷积与残差门控的多模态情感识别[J]. 计算机工程, 2023, 49(7): 94-101.
[2]	李静雯, 赵奎. 基于改进PCFG算法的口令猜测方法[J]. 计算机工程, 2023, 49(5): 38-47.
[3]	杨文忠, 丁甜甜, 康鹏, 卜文秀. 基于舆情新闻的中文关键词抽取综述[J]. 计算机工程, 2023, 49(3): 1-17.
[4]	蔡瑞初, 张盛强, 许柏炎. 基于结构感知混合编码模型的代码注释生成方法[J]. 计算机工程, 2023, 49(2): 61-69.
[5]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[6]	田乔鑫, 孔韦韦, 滕金保, 王照乾. 基于并行混合网络与注意力机制的文本情感分析模型[J]. 计算机工程, 2022, 48(8): 266-273.
[7]	张亮, 刘百祥. 区块链与秘密分享融合技术综述[J]. 计算机工程, 2022, 48(8): 1-11.
[8]	司逸晨, 管有庆. 基于Transformer编码器的中文命名实体识别模型[J]. 计算机工程, 2022, 48(7): 66-72.
[9]	陈儒玉, 戴欢, 高玉建, 付保川, 陈洁. 基于区块链的电子学位证照数据保护共享方法[J]. 计算机工程, 2022, 48(4): 50-60,80.
[10]	张吉祥, 张祥森, 武长旭, 赵增顺. 知识图谱构建技术综述[J]. 计算机工程, 2022, 48(3): 23-37.
[11]	宋旭晖, 于洪涛, 李邵梅. 基于图注意力网络字词融合的中文命名实体识别[J]. 计算机工程, 2022, 48(10): 298-305.
[12]	江旭, 钱雪忠, 宋威. 结合残差BiLSTM与句袋注意力的远程监督关系抽取[J]. 计算机工程, 2022, 48(10): 110-115,122.
[13]	李瑜泽, 栾馨, 柯尊旺, 李哲, 吾守尔·斯拉木. 知识感知的预训练语言模型综述[J]. 计算机工程, 2021, 47(9): 18-33.
[14]	许振雷, 董洪伟. 基于先验MASK注意力机制的视频问答方案[J]. 计算机工程, 2021, 47(2): 52-59.
[15]	夏高, 何成万. 一种基于异或运算的(k,n)门限秘密共享算法[J]. 计算机工程, 2021, 47(10): 111-115,124.

选择文件类型/文献管理软件名称

选择包含的内容

基于正文相关度的维吾尔网页正文提取

Content Extraction of Uighur Web Based on Content Correlativity

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于正文相关度的维吾尔网页正文提取

Content Extraction of Uighur Web Based on Content Correlativity

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价