计算机工程 ›› 2019, Vol. 45 ›› Issue (3): 175-181,187.doi: 10.19678/j.issn.1000-3428.0052686

• 人工智能及识别技术 • 上一篇    下一篇

基于数学文本和表达式转换的融合检索模型

张倩倩,田学东,杨芳,李新福   

  1. 河北大学 网络空间安全与计算机学院,河北 保定 071002
  • 收稿日期:2018-09-17 出版日期:2019-03-15 发布日期:2019-03-15
  • 作者简介:张倩倩(1993—),女,硕士研究生,主研方向为信息检索;田学东(通信作者),教授、博士;杨芳,博士;李新福,教授、博士。
  • 基金项目:

    国家自然科学基金(61375075);河北省教育厅河北省高等学校科学技术研究重点项目(ZD2017208,ZD2017209);河北大学“一省一校”项目。

Integration Retrieval Model Based on Transformation of Mathematical Text and Expression

ZHANG Qianqian,TIAN Xuedong,YANG Fang,LI Xinfu   

  1. School of Cyber Security and Computer,Hebei University,Baoding,Hebei 071002,China
  • Received:2018-09-17 Online:2019-03-15 Published:2019-03-15

摘要:

数学信息检索中查询式和检索结果以数学表达式为主,忽略了文档中数学文本语义。为此,提出一种融入数学文本特征的数学表达式检索模型。对中文科技文档进行遍历提取数学文本,利用数学字典将其映射为LaTeX数学表达式,并转化为二叉树结构。在此基础上,构建数学表达式索引,设计匹配算法,从而实现数学文本和表达式检索。实验结果表明,该方法提高了数学检索系统的检索效率。

关键词: 数学信息检索, 数学文本, 数学表达式, 词典, 索引

Abstract:

The query and retrieval results in Mathematical Information Retrieval(MIR) are mainly mathematical expressions,ignoring the semantics of mathematical texts in documents.Therefore,a mathematical expression retrieval model incorporating mathematical text features is proposed.The mathematical text is extracted by traversing Chinese scientific and technical documents.Mathematical dictionaries are used to map mathematical texts into LaTeX mathematical expressions and converted into binary tree structures.On this basis,the mathematical expression index is constructed and the matching algorithm is designed to realize the mathematical text and expression retrieval.Experiments show that the method improves the retrieval performance of the mathematical retrieval system.

Key words: Mathematical Information Retrieval(MIR), mathematical text, mathematical expression, dictionary, index

中图分类号: