%0 Journal Article %A 蔡偃武 %A 高大启 %A 阮彤 %A 蒋锐权 %T 面向大规模数据的在线新事件检测 %D 2014 %R 10.3969/j.issn.1000-3428.2014.10.008 %J 计算机工程 %P 37-42 %V 40 %N 10 %X 通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件 检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3 个过程的并行化,提高算法在多机环境下的运行效率和可 伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级 别的报道规模下,其吞吐量达到150 条/ s ~200 条/ s。 %U http://www.ecice06.com/CN/10.3969/j.issn.1000-3428.2014.10.008