计算机工程 ›› 2011, Vol. 37 ›› Issue (9): 4-5,8.doi: 10.3969/j.issn.1000-3428.2011.09.002

• 博士论文 • 上一篇    下一篇

基于语句节奏特征的作者身份识别研究

王少康1,2,董科军1,阎保平1   

  1. (1. 中国科学院计算机网络信息中心协同工作环境研究中心,北京 100190;2. 中国科学院研究生院,北京 100049)
  • 出版日期:2011-05-05 发布日期:2011-05-12
  • 作者简介:王少康(1981-),男,博士研究生,主研方向:智能搜索引擎,下一代互联网;董科军,副研究员、博士;阎保平,研究员、博士后、博士生导师
  • 基金项目:
    国家“863”计划基金资助项目“科学数据网格及科研应用系统”(2006AA01A120);中国科学院信息化基金资助项目“e-Science虚拟科研平台研究与开发”(INFO-115-D01);CNIC青年基金资助项目“基于Web的传感器监控管理系统”(CNIC_QN_09005)

Research on Authorship Identification Based on Sentence Rhythm Feature

WANG Shao-kang  1,2, DONG Ke-jun  1, YAN Bao-ping  1   

  1. (1. Collaboration Environment Research Center of Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. Graduate Universtiy of Chinese Academy of Sciences, Beijing 100049, China)
  • Online:2011-05-05 Published:2011-05-12

摘要: 提出一种新的写作风格相似度评估方法,利用不同作者写作时在文章语句节奏控制方面的特点,鉴别作者的写作风格,从而达到作者身份识别的目的。该方法构建节奏特征矩阵模型来描述文本的语句节奏,利用点积相似度算法以及改进的KL距离算法来度量节奏特征矩阵之间的差异。实验表明,该方法在文学作品的作者识别方面具有较高的准确率。

关键词: 文本挖掘, 作者身份识别, 文本相似度, 节奏特征, 多维矩阵

Abstract: This paper proposes a new method of authorship similarity assessment, which identifies the authorship by sentence rhythm features of articles. The method constructs a rhythm feature matrix to describe the Sentence Rhythm Feature(SRF) of the text, and uses the inner product similarity algorithm and improves Kullback-Leibler(KL) divergence algorithm to measure the difference between the rhythm feature matrixes. Experiments show that it can make rather good results in literature authorship identification.

Key words: text mining, authorship identification, text similarity, rhythm feature, multi-dimensional matrix

中图分类号: