3.22 基于时间序列建模的预测方法
基于时间序列建模的预测方法主要关注用户生成内容传播过程对应的时间序列。这类方法在对时间序列建模后,利用所得的模型进行用户生成内容的流行度预测工作。
下面介绍其中一些典型的研究工作。Crane 等[22]通 过 分 析 Youtube 中 500 万 段视频的传播过程对应的时间序列发现,大部分 ( 约90%) 视频的传播过程可以用泊松过程精确刻画,剩余视频的传播过程在经历流行度的爆发 (burst)之后,其单位时间内增加的流行度服从幂律分布的衰减。Yang 等[23]研究了用户生成内容流行度随时间的消涨模式。该研究通过对 5.8 亿条推文和 1.7亿篇博客文章流行度随时间消涨模式的聚类分析,挖掘出六类形态各异的流行度时序模式。进一步,Matsubara 等[24]提出了 SpikeM 模型对上述六种时序模式进行拟合,并利用 SpikeM 模型进行流行度预测。SpikeM 模型中利用幂律分布,描述用户生成内容的传播能力随时间衰减的过程,并利用正弦方程描述了用户关注度随时间周期变化的过程。Ahmed 等[25-28]先对用户生成内容初期传播过程的时序模式进行分类,之后利用分类后所得时序模式信息进行流行度预测。Lerman 等[29]在建模 Digg中消息获得投票的过程中,考虑了消息的兴趣度和可见度,进一步利用所得模型进行消息最终获得票数的预测。Wang 等[30]利用增强泊松过程模型,对论文获得引用的过程进行建模。该模型建模了论文的适应力、论文新颖性随着时间的衰减和论文引用过程中的优先连接机制。其中,论文的适应力表示为常数;论文新颖性的衰减服从对数正态分布;优先连接机制表示为引用次数的线性方程。Shen等[31]在上述模型的基础上增加了共轭先验,以消除模型对训练数据过拟合的现象。改进的模型中论文的适应力不再是常数,而是服从伽马分布。改进后的模型提高了论文引用次数预测工作的精度。同样,Gao等[32]在上述模型的基础上,提出了一种基于增强泊松过程的微博消息流行度预测模型。该模型从建模微博消息转发过程对应时间序列的角度,研究了流行度预测问题,并引入微博时间的概念并设计时间映射过程。