备案控制台

开发者社区人工智能文章正文

Machine Learning-L1-机器学习pipeline

2022-11-21 118

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Machine Learning-L1-机器学习pipeline

机器学习pipeline

一个典型的机器学习包括以下几个过程：

1. 定义问题

理解实际场景是机器学习的第一步，需要将业务问题抽象为机器学习能处理的数学问题，包括明确可以获得哪些数据、什么样的数据、数据是怎样的格式，原始数据需要做怎样的处理，机器学习的目标是一个分类、回归还是聚类等。

2. 获取数据

“ 数据决定机器学习结果的上限，而算法只是尽可能的逼近这个上限”。获取的数据需要业务相关，能够解决业务问题，并且是全面的、客观的，具有“代表性”的数据。

3. 数据处理

现实世界的数据一般是不完整的、有噪声的和不一致的。机器学习80%的时间都是在做数据处理，数据处理是机器学习的基础步骤。

数据预处理、数据清洗决定的数据质量，特征工程是机器学习的关键，主要包括从清洗后的数据中，根据实际业务场景提取特征，筛选出显著特征、摒弃非显著特征，需要结合领域知识反复迭代，这对很多结果有决定性的影响。此外还需对特征进行转换、离散化、归一化等。

4. 模型训练、评估与调优

选择合适的模型并通过训练数据训练模型，通过测试数据，评估模型的有效性，分析原因，提升算法性能。

5. 模型部署

模型上线运行，根据准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性

不断迭代优化。

文章标签：

机器学习/深度学习

数据挖掘

数据采集

数据处理

算法

关键词：

人工智能平台 PAI pipeline

人工智能平台 PAI machine

机器学习平台 PAImachine

机器学习平台 PAIpipeline

机器学习Zero

目录

相关文章

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习数据采集人工智能

Machine Learning机器学习之贝叶斯网络(BayesianNetwork)

Machine Learning机器学习之贝叶斯网络(BayesianNetwork)

游客i66wb7w7cg4tk

902 0 1

游客i66wb7w7cg4tk

|

3月前

|

存储自然语言处理搜索推荐

Machine Learning机器学习之文本分析的知识图谱(详细讲解)

Machine Learning机器学习之文本分析的知识图谱(详细讲解)

游客i66wb7w7cg4tk

181 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习数据采集算法

Machine Learning机器学习之随机森林（Random Forests）

Machine Learning机器学习之随机森林（Random Forests）

游客i66wb7w7cg4tk

252 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习自然语言处理算法

Machine Learning机器学习之文本分析

Machine Learning机器学习之文本分析

游客i66wb7w7cg4tk

126 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习算法搜索推荐

Machine Learning机器学习之决策树算法 Decision Tree（附Python代码）

Machine Learning机器学习之决策树算法 Decision Tree（附Python代码）

游客i66wb7w7cg4tk

247 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习运维算法

Machine Learning机器学习之向量机（Support Vector Machine，SVM）

Machine Learning机器学习之向量机（Support Vector Machine，SVM）

游客i66wb7w7cg4tk

82 0 1

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习算法数据可视化

Machine Learning机器学习之高维数据降维（主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解）

Machine Learning机器学习之高维数据降维（主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解）

游客i66wb7w7cg4tk

140 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习数据采集算法

Machine Learning机器学习之K近邻算法（K-Nearest Neighbors，KNN）

Machine Learning机器学习之K近邻算法（K-Nearest Neighbors，KNN）

游客i66wb7w7cg4tk

47 0 0

游客i66wb7w7cg4tk

|

3月前

|

机器学习/深度学习人工智能算法

Machine Learning机器学习之统计分析

Machine Learning机器学习之统计分析

游客i66wb7w7cg4tk

56 0 0

weixin_836869520

|

2月前

|

机器学习/深度学习数据处理计算机视觉

机器学习- Sklearn (交叉验证和Pipeline)

机器学习- Sklearn (交叉验证和Pipeline)

weixin_836869520

28 0 0

热门文章

最新文章

机器学习&深度学习资料

从开发人员实验到生产机器学习MVP的路径

机器学习基础

全面解析大规模深度学习优化策略在PAI中实践应用 | 云栖2017深圳

【机器学习算法-python实现】svm支持向量机(1)—理论知识介绍

EMNLP最佳长论文作者独家解读：别让机器学习放大性别偏见，其实男人也喜欢购物！

机器学习：逻辑回归

公有云小白的大模型实践-ChatGLM on PAI

机器学习常用函数解析

预约直播 | 流批一体机器学习算法平台Alink介绍及应用

【Python 机器学习专栏】强化学习在游戏 AI 中的实践

构建高效机器学习模型的策略与实践云端防御：融合云计算与网络安全的未来策略

【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题

【视频】R语言机器学习高维数据应用：Lasso回归和交叉验证预测房屋市场租金价格

快速入门Python机器学习：使用Scikit-Learn实现预测模型

自动化测试中AI与机器学习的融合应用

人工智能平台PAI产品使用合集之是否可以在模型部署发布后以http接口形式提供给业务开发人员使用

人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗

人工智能平台PAI产品使用合集之机器学习PAI中的sample_weight怎么加在样本中

人工智能平台PAI产品使用合集之机器学习PAI EasyRec中的eval_config的使用方法是什么

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

基于Spark的面向十亿级别特征的大规模机器学习

基于Spark的大规模机器学习在微博的应用

相关实验场景

更多

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

下一篇

通义千问API入门教程