3.21 基于分类 / 回归的预测方法
基于分类 / 回归的预测方法的基本思路是将流行度预测问题形式化为分类或回归问题,在对用户生成内容自身及其初期传播过程进行特征提取后,采用常用的分类器或回归算法进行预测工作。这类方法关注的重点在于提取对于分类或回归有效的特征,下面是一些典型的研究工作。
基于回归的预测方法
Szabo 等[4]通过对 Youtube 中视频以及 Digg中 digg 消息的研究发现,用户生成内容的长期流行度与初期流行度间存在较强的对数线性相关性,因此可以在两者间建立对数线性回归模型 , 以实现对内容流行度的预测。该模型仅考虑了内容初期的流行度值,并未结合其他特征,因此常被用作基准方法。近年来,许多研究者在该模型的基础上加入了新的特征以提高其预测精度。例如,在预测微博消息流行度工作中,Bao 等[5]在该模型中添加了消息初期转发网络的密度和消息传播深度两个特征;Can 等[6]在模型中添加了消息相关图片的视觉特征。Pinto 等[7]在预测视频流行度的工作中改进了以上模型,将观测时间段分为多个相等的间隔,并以多个间隔内的流行度值为特征建立多元线性回归模型。此外,Wu 等[8]通过分析 Digg 中 100 万用户的集体关注度发现,用户对于新发布 digg 消息的关注度随时间而衰减的过程服从拉伸指数分布,并进一步根据该分布建立回归方程预测 digg 消息的流行度。
基于分类的预测方法
Hong 等[9]将 Twitter 上的推文流行度预测问题形式化为两种分类问题,即推文是否会被转发的二分类问题和推文最终转发数量所在区间的多分类问题。分类问题中涉及的特征包括推文的文本特征、推文转发过程中底层网络结构特征、时间特征以及相关用户特征等。Kupavskii 等[10-11]也做了类似的工作,并新添加了推文转发流相关的特征。Ma 等[12-13]在对 Twitter 标签的流行度预测问题上也做了类似的工作。该工作通过对 7 种文本特征和11 种结构特征的分类性能分析后发现,结构特征的分类性能优于文本特征。Zhang 等[14]在 Twitter话题趋势预测中研究了 ( 非 ) 线性模型和 ( 非 ) 状态空间模型,以及内容特征和结构特征的预测性能。研究发现 , 基于用户行为的结构特征和非状态空间模型具有较好的预测性能。此外,Weng 等[15-16]研究了网络的社区结构对微博标签流行度预测问题的影响,发现微博标签在传播过程中涉及的社区越多,则最终的流行度越大。此外,在 Facebook 平台上,Backstrom 等[17]通过对用户状态回复量预测问题的研究发现,时间特征在该问题中预测性能最佳;Cheng 等[18]通过对图片分享数量预测的研究发现,图片在发布初期被分享的次数越多,则预测的精度越高。在预测问题中起到关键作用的特征为时间特征和分享网络的结构特征,且图片分享网络初期广度的重要性高于深度。在在线新闻的评论数量预测问题方面,Tsagkias 等[19]分析了在线新闻的表面信息、累积信息、文本、语义和外界环境五类特征的预测性能。该研究中预测的对象为发布之前的新闻,因此在预测过程中并未涉及任何与新闻传播过程相关的特征。类似的,Bandari 等[20]也仅利用文本特征对未发布新闻的阅读量进行预测。此外,Yano 等[21]利用生成概率模型建模政治博客文本内容与评论数量间的关系,并利用学习到的模型进行博客评论数量的预测。