利用阿里云 PAI 进行收入预测挖掘分析 | 学习笔记

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习利用阿里云 PAI 进行收入预测挖掘分析

开发者学堂课程【场景实践 - 基于机器学习进行收入预测分析利用阿里云 PAI 进行收入预测挖掘分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/526/detail/7091


利用阿里云 PAI 进行收入预测挖掘分析

 

内容介绍:

一、任务背景

二、解决方案

三、任务与思考

 

一、任务背景

下面通过阿里云 dataworks 以及机器学习序列组件来完成如下实验,利用 PAI 挖掘分析。

首先来看任务背景。

通信企业 ABC 公司,他的客户分为个人客户和集团客户。为了适应集团客户发展的需要, ABC 公司结合集团客户的具体需求,梳理出针对集团客户的产品,售卖给各个集团客户。

然后集团客户根据客户的业务方向,可以划分为几个大行业。比如金融行业、房地产业、制造业和医疗行业。

而集团产品可以根据业务方向进行拆分。具体可以分为如下几个大类:固网类、宽带互联网类、数据传送类以及其他。

目前,相关集团产品有三年多的销售历史, ABC 公司有三年多的销售记录。

ABC 公司就希望可以根据已有的收入数据进行后续的收入预算。一方面可以更好的掌控收入进度,产生各个行业对企业收入的支撑力度。同时还能针对某些行业进行促销,来保证后续行业收入。

此次实验设计的业务数据主要有集团客户的历史收入数据。主要包括的信息有

月份、客户编码、名称、行业编码、总收入、过往来源收入、宽带互联网收入、数据传送类收入,其他收入。

image.png

本次试验的目的分两个部分。

第一个目的,根据提供的客户级别的数据,统计汇总各行业维度的汇总数据。

第二个目的,分析统计出来的行业维度汇总数据。针对某两个行业,比如房地产行业、id行业。通过已有的历史数据使用阿里云继续学习PAI产品,对这两个行业的后续收入数据计算。

 

二、解决方案

此次任务的解决方案。

第一步开通 dataworks 服务并搭建开发环境。

第二步。实验数据准备。分析实验提供的数据文件以及相关的数据表结构,就可以在建表,然后根据 date works 相关导入将提供的数据文件导入到新建的数据表里面。

下一步是设计数据加工流程。统一各项业务维度的汇总数据通过 word 来实现。根据业务理解,将明细数据进行统一汇总,这是第三步。

下一步通过时间序列算法进行收入预测,将上一步统一汇总数据输入。

比如通过缺失值填充组件、过滤映射组件对数据进行预处理。

然后再通过 x13_auto_arima 组件进行预测。需要根据具体的数据进行参数调整。调整 p dq 这三个参数。然后生成交易数据的预测值。

下一步是分析预测结果,将上一步的预测结果与实际值来进行比较。一般情况下,如果两者的差值在5%以内,是比较成功的预测,如果差距比较大,调整pdq重新预测。

最后一步,离线实验调度部署。完成时间序列预测之后,可以在 dataworks 里面进行调度配置。以便后续周期性法调度任务分享。

这个是最终的效果图。

image.png

左侧是通过阿里云机器学习产品实现序列,是收入预测的整体的过程。

右侧是通过时间序列组件进行预测的数据结果与真实的数据进行比较的情况

 

三、任务与思考

1.任务

完成了对房地产行业, IT 行业的总收入预测,根据已有的数据集统计汇总出金融行业、互联网、制造行业的数据传送类收入,进行后续月份收入预测。然后针对于每个行业挑选几个收入比较高的或者较低的客户,从客户的角度去进行收入预测。

2.思考

针对不同行业的同种类型的收入预测时,各行业预测对应的 p dq 参数是否是一样;或者针对某一行业的某个收入进行测试所捕获的dq值是否可以直接用于本行业其他收入的预测算法中?为什么?

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
319 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
6月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
1413 12
|
8月前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
7月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
9月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
198 0
|
29天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
12月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1142 6
|
6月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。

热门文章

最新文章