利用阿里云 PAI 进行收入预测挖掘分析 | 学习笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 快速学习利用阿里云 PAI 进行收入预测挖掘分析

开发者学堂课程【场景实践 - 基于机器学习进行收入预测分析利用阿里云 PAI 进行收入预测挖掘分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/526/detail/7091


利用阿里云 PAI 进行收入预测挖掘分析

 

内容介绍:

一、任务背景

二、解决方案

三、任务与思考

 

一、任务背景

下面通过阿里云 dataworks 以及机器学习序列组件来完成如下实验,利用 PAI 挖掘分析。

首先来看任务背景。

通信企业 ABC 公司,他的客户分为个人客户和集团客户。为了适应集团客户发展的需要, ABC 公司结合集团客户的具体需求,梳理出针对集团客户的产品,售卖给各个集团客户。

然后集团客户根据客户的业务方向,可以划分为几个大行业。比如金融行业、房地产业、制造业和医疗行业。

而集团产品可以根据业务方向进行拆分。具体可以分为如下几个大类:固网类、宽带互联网类、数据传送类以及其他。

目前,相关集团产品有三年多的销售历史, ABC 公司有三年多的销售记录。

ABC 公司就希望可以根据已有的收入数据进行后续的收入预算。一方面可以更好的掌控收入进度,产生各个行业对企业收入的支撑力度。同时还能针对某些行业进行促销,来保证后续行业收入。

此次实验设计的业务数据主要有集团客户的历史收入数据。主要包括的信息有

月份、客户编码、名称、行业编码、总收入、过往来源收入、宽带互联网收入、数据传送类收入,其他收入。

image.png

本次试验的目的分两个部分。

第一个目的,根据提供的客户级别的数据,统计汇总各行业维度的汇总数据。

第二个目的,分析统计出来的行业维度汇总数据。针对某两个行业,比如房地产行业、id行业。通过已有的历史数据使用阿里云继续学习PAI产品,对这两个行业的后续收入数据计算。

 

二、解决方案

此次任务的解决方案。

第一步开通 dataworks 服务并搭建开发环境。

第二步。实验数据准备。分析实验提供的数据文件以及相关的数据表结构,就可以在建表,然后根据 date works 相关导入将提供的数据文件导入到新建的数据表里面。

下一步是设计数据加工流程。统一各项业务维度的汇总数据通过 word 来实现。根据业务理解,将明细数据进行统一汇总,这是第三步。

下一步通过时间序列算法进行收入预测,将上一步统一汇总数据输入。

比如通过缺失值填充组件、过滤映射组件对数据进行预处理。

然后再通过 x13_auto_arima 组件进行预测。需要根据具体的数据进行参数调整。调整 p dq 这三个参数。然后生成交易数据的预测值。

下一步是分析预测结果,将上一步的预测结果与实际值来进行比较。一般情况下,如果两者的差值在5%以内,是比较成功的预测,如果差距比较大,调整pdq重新预测。

最后一步,离线实验调度部署。完成时间序列预测之后,可以在 dataworks 里面进行调度配置。以便后续周期性法调度任务分享。

这个是最终的效果图。

image.png

左侧是通过阿里云机器学习产品实现序列,是收入预测的整体的过程。

右侧是通过时间序列组件进行预测的数据结果与真实的数据进行比较的情况

 

三、任务与思考

1.任务

完成了对房地产行业, IT 行业的总收入预测,根据已有的数据集统计汇总出金融行业、互联网、制造行业的数据传送类收入,进行后续月份收入预测。然后针对于每个行业挑选几个收入比较高的或者较低的客户,从客户的角度去进行收入预测。

2.思考

针对不同行业的同种类型的收入预测时,各行业预测对应的 p dq 参数是否是一样;或者针对某一行业的某个收入进行测试所捕获的dq值是否可以直接用于本行业其他收入的预测算法中?为什么?

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
10月前
|
机器学习/深度学习 算法 数据可视化
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
1862 1
|
10月前
|
机器学习/深度学习 算法 数据可视化
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
183 1
|
10月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
10月前
|
自然语言处理 算法 OLAP
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
10月前
|
机器学习/深度学习 算法 数据可视化
机器学习——主成分分析(PCA)
机器学习——主成分分析(PCA)
153 0
|
10月前
|
机器学习/深度学习 数据采集 自然语言处理
编写员工聊天监控软件的机器学习模块:Scikit-learn在行为分析中的应用
随着企业对员工行为监控的需求增加,开发一种能够自动分析员工聊天内容并检测异常行为的软件变得愈发重要。本文介绍了如何使用机器学习模块Scikit-learn来构建这样一个模块,并将其嵌入到员工聊天监控软件中。
260 3
|
10月前
|
机器学习/深度学习 自然语言处理 JavaScript
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
167 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】生成对抗网络(GAN)应用领域分析
【1月更文挑战第27天】【机器学习】生成对抗网络(GAN)应用领域分析
|
10月前
|
机器学习/深度学习 资源调度
【机器学习】归一化目的分析
【1月更文挑战第27天】【机器学习】归一化目的分析
|
10月前
|
机器学习/深度学习
【机器学习】误差分析
【1月更文挑战第23天】【机器学习】误差分析

热门文章

最新文章