利用阿里云 PAI 进行收入预测挖掘分析 | 学习笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 快速学习利用阿里云 PAI 进行收入预测挖掘分析

开发者学堂课程【场景实践 - 基于机器学习进行收入预测分析利用阿里云 PAI 进行收入预测挖掘分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/526/detail/7091


利用阿里云 PAI 进行收入预测挖掘分析

 

内容介绍:

一、任务背景

二、解决方案

三、任务与思考

 

一、任务背景

下面通过阿里云 dataworks 以及机器学习序列组件来完成如下实验,利用 PAI 挖掘分析。

首先来看任务背景。

通信企业 ABC 公司,他的客户分为个人客户和集团客户。为了适应集团客户发展的需要, ABC 公司结合集团客户的具体需求,梳理出针对集团客户的产品,售卖给各个集团客户。

然后集团客户根据客户的业务方向,可以划分为几个大行业。比如金融行业、房地产业、制造业和医疗行业。

而集团产品可以根据业务方向进行拆分。具体可以分为如下几个大类:固网类、宽带互联网类、数据传送类以及其他。

目前,相关集团产品有三年多的销售历史, ABC 公司有三年多的销售记录。

ABC 公司就希望可以根据已有的收入数据进行后续的收入预算。一方面可以更好的掌控收入进度,产生各个行业对企业收入的支撑力度。同时还能针对某些行业进行促销,来保证后续行业收入。

此次实验设计的业务数据主要有集团客户的历史收入数据。主要包括的信息有

月份、客户编码、名称、行业编码、总收入、过往来源收入、宽带互联网收入、数据传送类收入,其他收入。

image.png

本次试验的目的分两个部分。

第一个目的,根据提供的客户级别的数据,统计汇总各行业维度的汇总数据。

第二个目的,分析统计出来的行业维度汇总数据。针对某两个行业,比如房地产行业、id行业。通过已有的历史数据使用阿里云继续学习PAI产品,对这两个行业的后续收入数据计算。

 

二、解决方案

此次任务的解决方案。

第一步开通 dataworks 服务并搭建开发环境。

第二步。实验数据准备。分析实验提供的数据文件以及相关的数据表结构,就可以在建表,然后根据 date works 相关导入将提供的数据文件导入到新建的数据表里面。

下一步是设计数据加工流程。统一各项业务维度的汇总数据通过 word 来实现。根据业务理解,将明细数据进行统一汇总,这是第三步。

下一步通过时间序列算法进行收入预测,将上一步统一汇总数据输入。

比如通过缺失值填充组件、过滤映射组件对数据进行预处理。

然后再通过 x13_auto_arima 组件进行预测。需要根据具体的数据进行参数调整。调整 p dq 这三个参数。然后生成交易数据的预测值。

下一步是分析预测结果,将上一步的预测结果与实际值来进行比较。一般情况下,如果两者的差值在5%以内,是比较成功的预测,如果差距比较大,调整pdq重新预测。

最后一步,离线实验调度部署。完成时间序列预测之后,可以在 dataworks 里面进行调度配置。以便后续周期性法调度任务分享。

这个是最终的效果图。

image.png

左侧是通过阿里云机器学习产品实现序列,是收入预测的整体的过程。

右侧是通过时间序列组件进行预测的数据结果与真实的数据进行比较的情况

 

三、任务与思考

1.任务

完成了对房地产行业, IT 行业的总收入预测,根据已有的数据集统计汇总出金融行业、互联网、制造行业的数据传送类收入,进行后续月份收入预测。然后针对于每个行业挑选几个收入比较高的或者较低的客户,从客户的角度去进行收入预测。

2.思考

针对不同行业的同种类型的收入预测时,各行业预测对应的 p dq 参数是否是一样;或者针对某一行业的某个收入进行测试所捕获的dq值是否可以直接用于本行业其他收入的预测算法中?为什么?

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI常见问题之DLC的数据写入到另外一个阿里云主账号的OSS中如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
12天前
|
人工智能 自然语言处理 算法
阿里云PAI大模型评测最佳实践
在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
1天前
|
关系型数据库 MySQL 测试技术
《阿里云产品四月刊》—瑶池数据库微课堂|RDS MySQL 经济版 vs 自建 MySQL 性能压测与性价比分析
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。
|
2月前
|
人工智能 JavaScript 前端开发
最新季报!阿里云AI相关收入三位数增长
最新季报!阿里云AI相关收入三位数增长
51 1
|
2月前
|
关系型数据库 分布式数据库 数据库
【阿里云云原生专栏】云原生时代的数据库选型:阿里云RDS与PolarDB对比分析
【5月更文挑战第24天】阿里云提供RDS和PolarDB两种数据库服务。RDS是高性能的在线关系型数据库,支持MySQL等引擎,适合中小规模需求;而PolarDB是分布式数据库,具备高扩展性和性能,适用于大规模数据和高并发场景。RDS与PolarDB在架构、性能、弹性伸缩、成本等方面存在差异,开发者应根据具体需求选择。示例代码展示了如何通过CLI创建RDS和PolarDB实例。
593 0
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
43 1
|
2月前
|
机器学习/深度学习 人工智能 供应链
【专栏】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化
【4月更文挑战第29天】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化。具有灵活性、易用性、高效稳定和智能学习等特点。广泛应用于财务、人力资源、客服和供应链等领域,未来将与AI深度融合,跨平台应用,行业定制化,并构建完善生态,助力企业效率提升和创新。
|
2月前
|
监控 安全 数据挖掘
Email 接口API有哪些?具体分析一下阿里云和AOK的优点
本文介绍了常见的Email接口API,如阿里云邮件推送、AOKSend、SendGrid、Mailgun和Amazon SES。阿里云API以其高稳定性和数据分析功能脱颖而出,支持批量发送和多语言;而AOKSend API以易于集成、高安全性和优秀客户支持为亮点。企业在选择时应考虑自身需求和预算,以优化邮件营销效果。

热门文章

最新文章