阿里云机器学习PAI-提高数据的运营效率

简介: 2018云栖大会上海峰会,阿里云机器学习高级产品专家刘吉哲对阿里云机器学习PAI 服务与案例进行了讲述,机器学习PAI是阿里的一个计算平台,通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境。让数据挖掘的创建过程像搭积木一样简单。

阿里云机器学习PAI-提高数据的运营效率

摘要:2018云栖大会上海峰会,阿里云机器学习高级产品专家刘吉哲对阿里云机器学习PAI 服务与案例进行了讲述,机器学习PAI是阿里的一个计算平台,通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境。让数据挖掘的创建过程像搭积木一样简单。本文主要对机器学习PAI的背景、机器学习PAI技术实现以及现实生活的运用进行了讲述。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击

背景

首先对三个场景进行介绍,第一个是尿不湿和啤酒的销售故事,沃尔玛超市把啤酒和尿不湿摆放在起进行销售,发现啤酒的销量会随尿不湿销量增加,这是最原始的大数据分析;第二个场景是阿法狗和韩国职业围棋选手的比赛,最终阿法狗战胜了职业围棋选手,成为第一个战胜围棋世界冠军的人工智能机器人;第三个场景是现在的我们进入地铁和火车站的时候,不仅可以刷票,还可以进行人脸的识别。这三个过程代表了整个人工智能的发展史,第一个过程是大数据的初始,我们获取数据并对这些数据进行分析;第二个场景就代表机器学习人工智能达到了一个顶峰;第三个场景说明我们已经把机器学习人工智能这个技术运用到我们的生活中了。
同时市场调查显示,从2015 -2016年AI类的市场收入增长了9%。BIL类软件类的市场只增长了4.4%。在被调查两千多家公司里,11%的企业已经部署AI类方案,53%的企业计划在未来五年部署AI方案,AI在未来的市场变得越来越大。
机器学习的一个最重要的场景就是电商里的推荐。在电商里,推荐是一个常用的技术。除此,还有很多领域用到深度学习。在医疗领域,通过影像资料来分析病症是非常常用的。但是有些病症不能借助影像资料进行分析,如阿莫斯海默症状,如果我们通过影像资料看到小脑萎缩,说明这个人已经得了这个病。现在我们需要借助资料去预测这个人有多大的概率会得这个病。另一个领域是天气,中央气象台会根据各种数据进行天气的预测。我们现在除了中央气象台还有很多的做天气的APP。这些APP不是根据大数据做的,它是根据机器学习或人工智能的技术来做。

工欲善其事,必先利其器

计算和存储是做人工智能的两个必备条件,计算和存储是整个实现过程成本最高的。机器学习还需要大量的人才,这些人才必须会信息论、微积分、矩阵论、编程、概率论等方面的知识。同时机器学习是一个工程,整个流程需要对数据进行预处理,对特征进行提取、还需要用算法对模型进行训练。

1


如上图所示阿里云机器学习,阿里云AI平台借用阿里现有的高性能的云端计算降低存储和计算的能力,应用阿里现有的优化之后的算法和框架,以工具打包的形式运用到产品中可降低用户使用机器学习的门槛。
机器学习的流程中有20%进行数据处理,15%进行样本生成,5%用作模型评估,15%进行特征提取,40%用来模型训练,5%进行模型应用。如何将整个的流程串联在一起,这就需要机器学习PAI的一些功能。第一个是整体的架构,借助阿里云底层的MAC层提供CPU/GPU的计算能力,在上一层框架上抽象出MPA,再往上面一层有封装好的算法,分类算法、回归算法和序列算法等。最上面一层是用户用来开发自己的一些应用,如天气、交通、银行等。这个平台提供了大量的算法,有数据处理、特征工程、统计分析,还有一些常用的机器学习算法和一些深度学习框架。同时还提供了一些可视化实验环境,因为实验过程是一个流程,提供了可视化实验环境就可以把整个流程展示出来。我们只要把整个过程的数据,算法、评估、预测相关的一些组件设置一些参数,整个流程就可以跑起来。

我们与众不同

深度学习里的开源需要用到阿里云上的机器学习PAI,用户不能自己搭建平台。这里要和开源不一样,还要和开源有一定的兼容性。不一样的地方体现在阿里的电商平台推荐,阿里的商品和用户数据量非常的大,普通的算法很难满足这个需求。在做电商推荐时遇到了很多的挑战。我们对开源算法做了优化来解决这些问题。高效的分布式通信减小网络上的消耗是其中一个优化点。我们需要采用分布式通信又不影响作业,我们要做到当某个节点发生失败时,通知另一台计算机启动作业,从失败的节点把数据下载下来从新运行作业,保证整个作业的长时间运行。
首先PAI是一个孵化的产品,必须支持多族谱,不能只为某一个人进行服务,需要对所有集团内部、所有互联网提供服务。用户可以同时在平台上提供作业,这样需要这些作业在运行的过程中做到安全的隔离,隔离上最重要的是网络上的隔离。
在通讯上采用Ring AllReduce进行优化,Ring AllReduce在HBC是一个非常高效的方案。百度硅谷的实验室把Ring AllReduce方案移植到GPU的通信里,Ring AllReduce非常的简单,它的原理是当第一轮数据在做通信的时候,每一个节点都在往下一个节点做数据传输。这样数据有序的传给下一个节点,而且数据的通信量不会随着节点的增加而增加。实现Ring AllReduce有很多种方案,阿里是基于Rendzvous接口来做的。Rendzvous是gRPC、RDMA、NCCL底层的一个接口,基于底层实现来实现Ring AllReduce之后,我们只需要在代码里做一个声明即可。

2


通信性能优化是底层gRPC handler采用多线程并行处理。如上图所示蓝色是多线程通信,橙色是最原始的开源通信。从上面的数据可以看到从64卡变到128卡时,橙色的数量是在降低,而多线程的通信蓝色是在增加的。从图中还可以看出,使用多线程的并行处理64卡会提升1倍,128卡提升了3倍多。所以卡数越多,性能的提升越高。

内部案例

其中一个案例是淘宝图片的审核。如果卖家发布一些色情类的图片,后台会自动识别这些图片。刚开始使用的是单机两卡,整个模型训练下来需要用288个小时。后来用了阿里的框架,在分布式下用16机32卡进行训练,只需要20小时就能完成训练,比单机快了14倍。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
461 8
|
10月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
494 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
11月前
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
407 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
10月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
2321 12
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
11月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
1120 0
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
301 0