文档备案控制台

开发者社区 ModelScope模型即服务文章正文

使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践| 学习笔记（二）

2022-11-24 718

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践

开发者学堂课程【Databricks数据洞察公开课：使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/1058/detail/15565

使用 Databricks 和 MLflow 进行机器学习模型训练和部署的应用实践

Anaconda 的安装包已经下载好了，下一步,要把 conda 的路径添加到系统路径中。

ecal “s(/root/anaconda3/bin/conda shell.bash hook)”

然后，初始化 Conda

conda init

紧接着去创建一个新的 Anaconda 的环境

conda create-n m\flow-server

然后去激活这个环境。

conda activate m\flow-server

在这个新的环境中，我们去安装 python 3.9。

conda install pathon=3.9

conda install pymysql

由于，Mlflow server 需要将原数据存储到数据库中，所以，还需要 python 到Mysql的 connecter ，接着就可以使用 pip 去安装Mlflow Server。

Mlflow Server安装好之后需要在 Mysql 里创建一个新的数据库用来存储 Mlflow Server 的一些原数据信息，然后需要设置一些环境变：MLFLOW_OSS_ENDPOINT_URL=”

http://oss-cn-beijing.aliyuncs.com/mlflow-demo

这个环境变量是 OSS 的ENDPOINT 的URL ，它的组成是oss 以及地域和 OSS Bucket ，下方是AK ，AK KEY 和 AK SECRET。

此外这里需要用到 Mlflow 和 OSS 的 conducter ，需要下载安装包，然后再在本地区安装，已经在本地下载好了后，直接在这个路径下执行 pip install ，如下图。

之后就可以在这个机器上启动一个Mlflow Server ， Mlflow 的 Web UI 是开在5000端口，如下图：

可以看到Mlflow Server 已经运行起来了，但是目前这里还没有实验，也没有模型， Mlflow Server 环境搭建好之后，就可以在 DDI 的 notebook 上进行操作，首先把需要的包都给导入进来，然后需要设置三个环境变量，如下图：

和前面的 ECS Server 设置的环境变量是一致的，再去设置一下 log 的级别，如下图：

还有下图定义了一个计算均方误差，平均绝对误差和 R2 的一个函数，这是用来计算模型的相应的指标的。

之后，将 OSS 中的训练数据加载进来，下图是红酒质量数据，对应的每一行的是红酒的酸碱度，然后还有含糖量以及酒精含量等等这些信息，最后一列呢是这个酒的质量

把这些数据加载进来，加载完成后，我们先把它转成 Pandas ，

Pandas 的data free ，然后把它分割成训练集和测试集

然后，使用 SK LUNCH 去搭建一个简单的线性回归的模型，这里的参数设置为0.6和0.1如下图：

然后需要去设置tracking server的 uri ，使用的是内网的地址： http://10.0.0.246：5000/

之后去创建一个实验环境，这个实验环境的名称叫 wine quality ，还需要设置模芯的存储地址，是存储到 models 里。

环境创建好之后，就可以开启一次实验，开启一次实验与打开一个文件是类似的，使用 with 语句，然后start run 方法就可以开启一次实验。

首先去把参数给记录下来，再使用这个 log_param 的 alpha 还有 l1_racial这两个参数记录下来，去创建一个简单的线性回归模型，之后使用train_x，train_y去训练这个模型，再计算这个模型的性能指标，再使用 log metric 把这些性能指标给记录下来，最后还需要把训练好的模型给记录下来，在这个 Mlflow 的这个 Web UI 上，可以看到实验以及这次实验产生的模型，还有性能指标以及参数。

在这次实验的详情页面，可以看到这次实验的详细的信息，比如参数、性能指标，还可以为这次实验打上一些标签，方便快速的去检索这个这次实验。

还有这次实验相关的一些 Artifacts ，包括了模型的参数、执行环境、以及这次训练得到的模型。

参数：执行环境：模型：

再次回到这个 DDI的这个notebook ，去修改一下 alpha 和 r1_ratio ，再次去执行一次实验。

多修改几次：

在 Mlflow 的这个界面，就会看到新生成了两次实验。

并且可以将两次实验进行一个简单的对比，可以对比它们的性能指标和参数之间的关系。

在 Models 里可以看到，4次执行的这些模型以及它的版本。

可以把这个模型标记一下，标记为它目前处于什么阶段，它是出于那个 Staging阶段还是处于生产的阶段。

Mlflow的模型部署也非常的简单，比如这次实验它的性能不错，那要如何去部署它，先把Model 的 OSS path copy下来。

只需要在 ECS server上去执行这样一条指令。

模型已经部署在12345端口

可以使用personnel 调用模型得到推断的结果。

使用 Post 方法。在 Body 面传入相应的参数。调用接口就可以得到反馈结果。

从开始一次实验去训练模型到模型的部署，整个流程都可以通过 Mlflow 去搞定，而且 Mlflow UI上会显示所有的实验以及所有训练好的模型。

文章标签：

对象存储

Python

机器学习/深度学习

弹性计算

关系型数据库

对象存储

MySQL

数据库

存储

开发者

关键词：

人工智能平台 PAI训练

人工智能平台 PAI模型

人工智能平台 PAI应用

人工智能平台 PAI部署

人工智能平台 PAI模型应用

相关实践学习

对象存储OSS快速上手——如何使用ossbrowser

本实验是对象存储OSS入门级实验。通过本实验，用户可学会如何用对象OSS的插件，进行简单的数据存、查、删等操作。

阿里云社区

目录

相关文章

阿里云大数据Al技术

|

9月前

|

机器学习/深度学习人工智能 JSON

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户，都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

阿里云大数据Al技术

513 63 63

阿里云大数据Al技术

|

8月前

|

人工智能 JSON 算法

【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列，包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。

阿里云大数据Al技术

382 7 8

青云交（Java大数据AI云原生Python）

|

5月前

|

机器学习/深度学习自然语言处理算法

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升（205）

本文探讨Java大数据与机器学习在自然语言处理中的对抗训练与鲁棒性提升，分析对抗攻击原理，结合Java技术构建对抗样本、优化训练策略，并通过智能客服等案例展示实际应用效果。

青云交（Java大数据AI云原生Python）

186 0 0

技术内容小助手

|

人工智能调度芯片

PAI训练服务：云上大模型训练新篇章

本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来，算力需求激增，硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性；通过资源配额、智能调度等提高性价比；并推出PAI-TorchAcc和PAI-ChatLearn两大引擎，分别实现高效训练加速和灵活的对齐训练，显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题，提升了效率和稳定性。

技术内容小助手

630 0 0

蚝油菜花

|

10月前

|

人工智能自然语言处理算法

MT-MegatronLM：国产训练框架逆袭！三合一并行+FP8黑科技，大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架，支持多种模型架构和高效混合并行训练，显著提升 GPU 集群的算力利用率。

蚝油菜花

802 18 18

阿里云大数据Al技术

|

10月前

|

机器学习/深度学习人工智能边缘计算

DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路，DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能，在较小参数规模下，显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。

阿里云大数据Al技术

520 3 3

蚝油菜花

|

机器学习/深度学习人工智能

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架，通过最小化积分Kullback-Leibler散度，指导其他生成模型的训练，提升生成性能。

蚝油菜花

337 11 11

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

阿里云大数据Al技术

|

人工智能 JSON 算法

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式、 AI Native 的大模型与 AIGC 工程平台，为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例，详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

阿里云大数据Al技术

1819 30 30

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

modelscope

|

人工智能 JSON 算法

魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了！

现在，魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦！

modelscope

840 22 22

pai_rec_coder

如何看PAI产品下训练（train）模型任务的费用细节

PAI产品下训练（train）模型任务的费用细节

pai_rec_coder

241 6 6

ModelScope模型即服务

热门文章

最新文章

免费的模型API平台盘点

小而强，GLM-4.7-Flash开源

Qwen-Image-Edit：全能图像编辑，驱动内容创作提质增效

FLUX.2-Klein 4B/9B开源：亚秒级统一图像生成与编辑

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

Claude Skills的开源实现

别再把大脑当成 /dev/null 了！用这套AI指令给记忆装个 "Redis 缓存层"

GLM-4.7开源！交出“生产级代码”

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

生物共振：智能体领航员重塑你的生理秩序

重新定义陪伴：智能体领航员赋能下的智慧育儿与家族传承

docker安装部署FunASR

Qwen3-TTS全面开源：支持超低延迟流式合成的多语言语音大模型

Claude 4.5 Sonnet / Opus / Haiku 核心区别解析：模型性能、适用场景与选型建议

Qwen-Image 从推理到 LoRA 训练实战教程（AMD GPU × DiffSynth-Studio）

写小说时，Claude 4.0 和 4.5 的差别在哪里？

推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI

基于Qwen-3B-Raw的本地化SD Prompt生成器研究

别再写"面条式文档"了！用AI给你的思维装个"图形渲染引擎"

相关产品

人工智能平台 PAI

文档详情产品详情

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

阿里云人工智能平台 PAI年度发布

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

Databricks数据洞察：从入门到实践

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用