通用文本处理方法的研究与设计

doi:10.3969/j.issn.1000-3428.2010.06.001

计算机工程 ›› 2010, Vol. 36 ›› Issue (06): 1-4. doi: 10.3969/j.issn.1000-3428.2010.06.001

• 博士论文 • 下一篇

通用文本处理方法的研究与设计

宋友1，梁士兴2，黄璐1,2

(1. 北京航空航天大学软件学院，北京 100191；2. 国际商业机器有限公司中国开发中心，北京 100193)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2010-03-20 发布日期:2010-03-20

Research and Design of General Text Processing Method

SONG You1, LIANG Shi-xing2, HUANG Lu1,2

(1. College of Software, Beihang University, Beijing 100191; 2. IBM China Development Lab, Beijing 100193)

Received:1900-01-01 Revised:1900-01-01 Online:2010-03-20 Published:2010-03-20

摘要/Abstract

摘要： 设计描述通用文本处理逻辑的规则以及执行规则的引擎，使开发文本处理程序简化为开发应用规则。用XML描述规则的数据模型，规则元素包括原子规则、规则集、前置条件和数据上下文，在规则中用正则表达式实现文本匹配，用转义符和脚本语言实现多种转换逻辑。利用该方法进行Web主题文本提取，验证了规则的合理性和引擎的有效性。

关键词: 文本处理, 正则表达式, 脚本语言

Abstract: A rule is defined to describe the logic of text processing, and an engine is designed to execute the rule, with which text processing is simplified from programming to writing rule. A model of the rule is defined based on XML. The rule includes atom-rules, rule-sets, rule-applications and data contexts. The rule can match text with regular expression, and transform the matched results with escape character and script language. An experiment of extracting Web topic text is given to verify the rationality of the rule and the efficiency of the engine.

Key words: text processing, regular expression, script language

中图分类号:

TP391.1

宋友;梁士兴;黄璐;. 通用文本处理方法的研究与设计[J]. 计算机工程, 2010, 36(06): 1-4.

SONG You; LIANG Shi-xing; HUANG Lu;. Research and Design of General Text Processing Method[J]. Computer Engineering, 2010, 36(06): 1-4.

http://www.ecice06.com/CN/Y2010/V36/I06/1

[1]	王翔,卢毓海,马伟,刘燕兵. 一种针对DFA状态爆炸的正则表达式匹配方法[J]. 计算机工程, 2019, 45(4): 148-156.
[2]	杨嘉佳,姜腊林,姜磊,戴琼,谭建龙. 基于簇聚类和游程编码的正则表达式压缩算法[J]. 计算机工程, 2014, 40(8): 282-287,292.
[3]	高俊波，梅波. 基于文本内容分析的微博广告过滤模型研究[J]. 计算机工程, 2014, 40(5): 17-20.
[4]	魏强, 李云照, 褚衍杰. 基于图划分的正则表达式分组算法[J]. 计算机工程, 2012, 38(18): 137-139.
[5]	翟琰, 魏振春, 韩江洪, 卫星. 基于脚本语言建模的汽车ECU测试系统设计[J]. 计算机工程, 2012, 38(15): 260-263.
[6]	杨德兴, 刘钦明, 魏磊, 史红周. 基于TCL的6LoWPAN协议一致性测试[J]. 计算机工程, 2012, 38(04): 263-265.
[7]	李莲春, 周金治. 网络音视频语义信息抽取系统[J]. 计算机工程, 2011, 37(13): 269-271.
[8]	张达运, 汪汉新. 基于Lua的Linux内核测试工具开发[J]. 计算机工程, 2011, 37(11): 283-284.
[9]	郭牧怡;刘萍;谭建龙;郭莉. 基于文件标题特征的网络视频去重研究[J]. 计算机工程, 2010, 36(9): 227-229,.
[10]	田里. NIDS中正则表达式匹配电路的改进与优化[J]. 计算机工程, 2010, 36(3): 136-138.
[11]	金军航, 张大方, 黄昆. 高性能正则表达式匹配算法评估[J]. 计算机工程, 2010, 36(19): 269-271.
[12]	刘鹏, 姚远, 邰铭, 张铮. 一种高效匹配PCRE的扩展自动机[J]. 计算机工程, 2010, 36(12): 39-42.
[13]	代贝;雒江涛. Lua在TD-SCDMA网络测试仪中的应用[J]. 计算机工程, 2010, 36(1): 265-266,.
[14]	董敏;毕盛;齐德昱. 基于正则表达式的测试数据自动生成技术[J]. 计算机工程, 2009, 35(16): 29-31.
[15]	朱歆华;赵大哲;于亚新;刘积仁. 医学影像诊断资源平台关键技术的研究[J]. 计算机工程, 2008, 34(1): 259-261.

选择文件类型/文献管理软件名称

选择包含的内容

通用文本处理方法的研究与设计

Research and Design of General Text Processing Method

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

通用文本处理方法的研究与设计

Research and Design of General Text Processing Method

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价