《中国人工智能学会通讯》——3.21 基于分类 / 回归的预测方法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第3章,第3.21节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

3.21 基于分类 / 回归的预测方法

基于分类 / 回归的预测方法的基本思路是将流行度预测问题形式化为分类或回归问题,在对用户生成内容自身及其初期传播过程进行特征提取后,采用常用的分类器或回归算法进行预测工作。这类方法关注的重点在于提取对于分类或回归有效的特征,下面是一些典型的研究工作。

基于回归的预测方法

Szabo 等[4]通过对 Youtube 中视频以及 Digg中 digg 消息的研究发现,用户生成内容的长期流行度与初期流行度间存在较强的对数线性相关性,因此可以在两者间建立对数线性回归模型 , 以实现对内容流行度的预测。该模型仅考虑了内容初期的流行度值,并未结合其他特征,因此常被用作基准方法。近年来,许多研究者在该模型的基础上加入了新的特征以提高其预测精度。例如,在预测微博消息流行度工作中,Bao 等[5]在该模型中添加了消息初期转发网络的密度和消息传播深度两个特征;Can 等[6]在模型中添加了消息相关图片的视觉特征。Pinto 等[7]在预测视频流行度的工作中改进了以上模型,将观测时间段分为多个相等的间隔,并以多个间隔内的流行度值为特征建立多元线性回归模型。此外,Wu 等[8]通过分析 Digg 中 100 万用户的集体关注度发现,用户对于新发布 digg 消息的关注度随时间而衰减的过程服从拉伸指数分布,并进一步根据该分布建立回归方程预测 digg 消息的流行度。

基于分类的预测方法

Hong 等[9]将 Twitter 上的推文流行度预测问题形式化为两种分类问题,即推文是否会被转发的二分类问题和推文最终转发数量所在区间的多分类问题。分类问题中涉及的特征包括推文的文本特征、推文转发过程中底层网络结构特征、时间特征以及相关用户特征等。Kupavskii 等[10-11]也做了类似的工作,并新添加了推文转发流相关的特征。Ma 等[12-13]在对 Twitter 标签的流行度预测问题上也做了类似的工作。该工作通过对 7 种文本特征和11 种结构特征的分类性能分析后发现,结构特征的分类性能优于文本特征。Zhang 等[14]在 Twitter话题趋势预测中研究了 ( 非 ) 线性模型和 ( 非 ) 状态空间模型,以及内容特征和结构特征的预测性能。研究发现 , 基于用户行为的结构特征和非状态空间模型具有较好的预测性能。此外,Weng 等[15-16]研究了网络的社区结构对微博标签流行度预测问题的影响,发现微博标签在传播过程中涉及的社区越多,则最终的流行度越大。此外,在 Facebook 平台上,Backstrom 等[17]通过对用户状态回复量预测问题的研究发现,时间特征在该问题中预测性能最佳;Cheng 等[18]通过对图片分享数量预测的研究发现,图片在发布初期被分享的次数越多,则预测的精度越高。在预测问题中起到关键作用的特征为时间特征和分享网络的结构特征,且图片分享网络初期广度的重要性高于深度。在在线新闻的评论数量预测问题方面,Tsagkias 等[19]分析了在线新闻的表面信息、累积信息、文本、语义和外界环境五类特征的预测性能。该研究中预测的对象为发布之前的新闻,因此在预测过程中并未涉及任何与新闻传播过程相关的特征。类似的,Bandari 等[20]也仅利用文本特征对未发布新闻的阅读量进行预测。此外,Yano 等[21]利用生成概率模型建模政治博客文本内容与评论数量间的关系,并利用学习到的模型进行博客评论数量的预测。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
智创 AI 新视界 -- 提升 AI 推理速度的高级方法(16 - 2)
本文深度聚焦提升 AI 推理速度,全面阐述模型压缩(低秩分解、参数量化)、硬件加速(GPU、TPU)及推理算法优化(剪枝感知推理、动态批处理)。结合图像识别等多领域案例与丰富代码示例,以生动形象且专业严谨的方式,为 AI 从业者提供极具价值的技术指南,助力突破 AI 推理速度瓶颈,实现系统性能跃升。
|
9天前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
109 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
220 8
|
1月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
132 4
|
2月前
|
人工智能 JSON 监控
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
AI Agent的评估需覆盖其整个生命周期,从开发到部署,综合考量事实准确性、推理路径、工具选择、结构化输出、多轮对话及实时性能等维度。LangSmith作为主流评估平台,提供了一套全面的评估框架,支持12种评估技术,包括基于标准答案、程序性分析及观察性评估。这些技术可有效监控Agent各组件表现,确保其在真实场景中的稳定性和可靠性。
976 0
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
|
6月前
|
数据采集 人工智能 缓存
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
180 1
|
9月前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
818 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
10月前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
358 29
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
10月前
|
人工智能 安全 搜索推荐
新手指南:人工智能poe ai 怎么用?国内使用poe记住这个方法就够了!
由于国内网络限制,许多用户在尝试访问Poe AI时面临障碍。幸运的是,现在国内用户也能轻松畅玩Poe AI,告别繁琐的设置,直接开启AI创作之旅!🎉
787 13

热门文章

最新文章