12.8 序列模式挖掘趋势展望
近年来,数据挖掘会议和期刊中将模式与统计结合成为较热门的研究方向[47-49] ,通过统计方法对数据模式进行剪枝、判断模式的“有趣性”成为热点。例如,Nakagawa 等人[50]提出基于统计的安全剪枝规则对数据模式进行剪枝;Tatti [47] 提出的基于概率的划分模型 , 可以根据所预测的“有趣性”对无间隔的频繁情景模式进行排序。此外,在数据库会议和期刊中,面向大规模数据的具有高可扩展能力的序列模式挖掘算法也不断发表[33,51] 。
笔者认为 , 近年来面向大数据需求的序列模式挖掘算法将成为新的研究趋势与热点。首先,学术界普遍承认在传统序列模式挖掘输出的模式数量多,存在冗余。因此,如何减少模式的输出数量,降低冗余度成为面向大数据的特别需求。目前,热门解决方案是引入概率统计的思想初步解决该问题,此方向仍需要更多深入的研究。其次,打破传统的频率框架,设计新的“有趣性”度量,定义适用于特定应用的数据模式也可能是解决冗余问题的一条途径。第三,在新的大数据计算框架下,研究高可扩展的序列模式挖掘算法仍将会是一个主流趋势。与传统并行算法所不同的是,近年涌现出的并行序列模式挖掘算法更加追求任务划分上的负载均衡,充分发挥大数据计算框架的优势,从而取得了性能大幅提升。