已有多数云存储数据完整性验证方法效率较低、通信开销较大。为此,提出一种改进的云存储数据完整性验证方法。利用双线性对技术进行数据完整性验证以实现公开验证功能,设计索引表机制进行动态验证,采用随机掩码技术提高方法的安全性。分析与实验结果表明,该方法能有效抵抗服务器的恶意攻击,且具有较低的通信开销与较高的计算效率。
针对FP-Growth算法查找操作时间复杂度较高的问题,提出一种新的算法LBPFP。在PFP算法基础上,将哈希表加入链头表以实现项地址的快速访问,并设计基于前缀长度的计算量模型,优化并行流程,提升算法的执行效率。在webdocs.dat数据库上进行对比实验,结果表明,LBPFP算法比PFP、HPFP、DPFP算法具有更高的频繁项集挖掘效率。
传统TF-IDF算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用MapReduce编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝,使用局部时态索引进行分区内查询,提高数据检索效率。针对时态数据设计分区方法,以对全局剪枝进行优化。基于真实和合成数据集的实验结果表明,与基准方案相比,该方案可明显提高时态连接操作的处理效率。
大数据背景下大规模本体映射的时间复杂度较高,效率和精度较低。为此,提出一种基于模块化和局部置信度的多策略自适应大规模本体映射算法。对本体内部进行聚类和模块化,基于信息检索策略发现模块间高相似度的相关子本体,计算相关子本体间各映射策略下的局部置信度,在组合映射结果时基于局部置信度对相应策略的权值进行自适应调整。在此基础上,利用启发式贪心策略提取映射结果并基于映射规则矫正结果。实验结果表明,与Falcon、ASMOV方法相比,该算法具有较高的查全率、查准率与F-measure值。
云计算和容器技术为工作流的运行带来便利,但其存在管理困难、资源利用率不足以及智能和自动化程度较低等问题。为此,提出一种支持弹性伸缩的容器化工作流框架,在此基础上给出基于CPU使用率的工作流自动伸缩模型,在流程过载时自动扩充流程的容器数目,减少任务等待时间,当任务负载减小时,能够在确保任务不丢失的情况下完成流程的缩容,以节约资源和成本。实验结果表明,流程的扩容数量与其处理时间成正相关,较好地消除工作流中的瓶颈,在工作流过载时,能够以较短的时间完成相同的任务量。
为从海量搜索点击日志中快速挖掘用户行为,提出一种分布式用户浏览点击模型(UBM)算法。原始UBM算法求出的检验度参数E只与搜索结果文档所在排序位置以及上一文档的点击位置有关,且非常稳定,基于此特性,将EM迭代求解转换为抽样估计检验度以求解吸引度的分布式UBM算法。在Spark数据平台上进行仿真,结果表明,与原始UBM算法相比,该算法能够解决点击日志中存在的严重数据倾斜问题,且运行效率较高。