《中国人工智能学会通讯》——3.21 基于分类 / 回归的预测方法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第3章,第3.21节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

3.21 基于分类 / 回归的预测方法

基于分类 / 回归的预测方法的基本思路是将流行度预测问题形式化为分类或回归问题,在对用户生成内容自身及其初期传播过程进行特征提取后,采用常用的分类器或回归算法进行预测工作。这类方法关注的重点在于提取对于分类或回归有效的特征,下面是一些典型的研究工作。

基于回归的预测方法

Szabo 等[4]通过对 Youtube 中视频以及 Digg中 digg 消息的研究发现,用户生成内容的长期流行度与初期流行度间存在较强的对数线性相关性,因此可以在两者间建立对数线性回归模型 , 以实现对内容流行度的预测。该模型仅考虑了内容初期的流行度值,并未结合其他特征,因此常被用作基准方法。近年来,许多研究者在该模型的基础上加入了新的特征以提高其预测精度。例如,在预测微博消息流行度工作中,Bao 等[5]在该模型中添加了消息初期转发网络的密度和消息传播深度两个特征;Can 等[6]在模型中添加了消息相关图片的视觉特征。Pinto 等[7]在预测视频流行度的工作中改进了以上模型,将观测时间段分为多个相等的间隔,并以多个间隔内的流行度值为特征建立多元线性回归模型。此外,Wu 等[8]通过分析 Digg 中 100 万用户的集体关注度发现,用户对于新发布 digg 消息的关注度随时间而衰减的过程服从拉伸指数分布,并进一步根据该分布建立回归方程预测 digg 消息的流行度。

基于分类的预测方法

Hong 等[9]将 Twitter 上的推文流行度预测问题形式化为两种分类问题,即推文是否会被转发的二分类问题和推文最终转发数量所在区间的多分类问题。分类问题中涉及的特征包括推文的文本特征、推文转发过程中底层网络结构特征、时间特征以及相关用户特征等。Kupavskii 等[10-11]也做了类似的工作,并新添加了推文转发流相关的特征。Ma 等[12-13]在对 Twitter 标签的流行度预测问题上也做了类似的工作。该工作通过对 7 种文本特征和11 种结构特征的分类性能分析后发现,结构特征的分类性能优于文本特征。Zhang 等[14]在 Twitter话题趋势预测中研究了 ( 非 ) 线性模型和 ( 非 ) 状态空间模型,以及内容特征和结构特征的预测性能。研究发现 , 基于用户行为的结构特征和非状态空间模型具有较好的预测性能。此外,Weng 等[15-16]研究了网络的社区结构对微博标签流行度预测问题的影响,发现微博标签在传播过程中涉及的社区越多,则最终的流行度越大。此外,在 Facebook 平台上,Backstrom 等[17]通过对用户状态回复量预测问题的研究发现,时间特征在该问题中预测性能最佳;Cheng 等[18]通过对图片分享数量预测的研究发现,图片在发布初期被分享的次数越多,则预测的精度越高。在预测问题中起到关键作用的特征为时间特征和分享网络的结构特征,且图片分享网络初期广度的重要性高于深度。在在线新闻的评论数量预测问题方面,Tsagkias 等[19]分析了在线新闻的表面信息、累积信息、文本、语义和外界环境五类特征的预测性能。该研究中预测的对象为发布之前的新闻,因此在预测过程中并未涉及任何与新闻传播过程相关的特征。类似的,Bandari 等[20]也仅利用文本特征对未发布新闻的阅读量进行预测。此外,Yano 等[21]利用生成概率模型建模政治博客文本内容与评论数量间的关系,并利用学习到的模型进行博客评论数量的预测。

相关文章
|
1月前
|
人工智能 安全 数据挖掘
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
|
3月前
|
人工智能 前端开发 测试技术
AI:探究下前端组件化设计的实现方法及其重要性(一)
AI:探究下前端组件化设计的实现方法及其重要性
|
3月前
|
人工智能 缓存 前端开发
AI:探究下前端组件化设计的实现方法及其重要性(二)
AI:探究下前端组件化设计的实现方法及其重要性
|
14天前
|
机器学习/深度学习 数据采集 人工智能
|
15天前
|
机器学习/深度学习 数据采集 人工智能
|
15天前
|
机器学习/深度学习 人工智能 算法
|
15天前
|
机器学习/深度学习 人工智能 算法
|
2月前
|
人工智能 文字识别 Java
AI工具【OCR 01】Java可使用的OCR工具Tess4J使用举例(身份证信息识别核心代码及信息提取方法分享)
【2月更文挑战第1天】Lept4J和Tess4J都是基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,本次介绍Tess4J
97 0
|
1月前
|
人工智能 安全 网络安全
欧盟《人工智能法案》对通用AI模型的监管要求
【2月更文挑战第24天】欧盟《人工智能法案》对通用AI模型的监管要求
82 1
欧盟《人工智能法案》对通用AI模型的监管要求
|
2月前
|
Web App开发 人工智能 自然语言处理
【人工智能时代】AI赋能编程 | 自动化工具助力高效办公
【人工智能时代】AI赋能编程 | 自动化工具助力高效办公
【人工智能时代】AI赋能编程 | 自动化工具助力高效办公