基于PAI-QuickStart搭建一站式模型训练服务体验

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 【8月更文挑战第5天】基于PAI-QuickStart搭建一站式模型训练服务体验

部署过程

在开始正式部署前,我们有必要了解下本次体验的产品是什么,阿里云人工智能平台PAI-快速开始(PAI-QuickStart)集成了业界流行的预训练模型,提供一站式、零代码的模型微调训练、服务部署、模型评测功能,帮助用户快速上手使用AI能力。

从产品的概念上我们很直观清楚地知道PAI-快速开始(PAI-QuickStart)是为模型预训练而生,用户可以通过它实现一站式、零代码、快速上手使用AI能力。

下面开始具体的部署体验,登录PAI控制台,如果你是首次使用PAI,会需要先开通个默认的工作空间。如下:

为了方便,这里地域就直接选择了杭州。如下:

由于本次体验后面的模型微调训练要用到OSS服务,所以组合服务这里我们需要勾选OSS,方便一并开通;如果你之前已经开通过OSS,这里忽略,以免产生不必要的费用。首次开通需要授权,点击授权前往RAM访问控制。如下:

点击同意授权即可。如下:

完成授权后返回点击刷新,继续点击“确认开通并创建默认工作空间”。如下:

这里需要等待一小会,即可完成服务的开通。如下:

在左侧导航栏单击工作空间列表,在工作空间列表页面中单击默认工作空间名称,可以进入对应工作空间内。

在工作空间页面的左侧导航栏中单击快速开始,这里提供两种模式,一种Model Gallery,一种是Model Gallery;这里我们选择Model Gallery。如下:

找到模型通义千问2-0.5B-Instruct(qwen2-0.5b-instruct)并单击。如下:

在模型详情页面,可以看到有关模型的介绍以及部署说明。

此刻我们可以单击右上角的部署进行模型的部署,在部署面板,配置保持默认即可,单击部署。如下:

在计费提醒对话框中,单击确定。如果此刻你需要了解计费,可以点击链接查看。

服务创建过程中,可以通过点击服务日志,查看具体执行过程。

当然这里你还可以通过点击查看部署事件,查看到具体执行了那些事件。

等待6分钟后,服务状态变为运行中,表示服务部署成功。如下:

服务部署完成后,单击查看WEB应用,即可开启在线体验模型了。

我们开始与大模型进行对话。可以提问如下医疗方向问题:

但从结果来看,模型回复虽然看似效果还可以,但是由于没有进行针对性的数据集微调,所以在医疗方向的回复还是稍显不专业。不过我们可以多尝试让模型生成几次,对比看看。

从多次尝试的结果来看,唯有头两次还算配合,积极作答,后面就直接摆烂了,着实体验不佳。

到此,基础模型直接部署过程就完成了,相较于传统部署,这个效率还是非常高效的。

接下来,我们开始模型的微调训练部署。在通义千问2-0.5B-Instruct模型详情页面,单击右上角的微调训练。如下:

在微调训练面板的训练输出配置区域,需要选择微调后模型的输出保存路径(OSS目录),由于当前区域没有可用的OSS,所以这里还需要新建Bucket,单击面板中的创建Bucket。

Bucket完成后,就可以直接选择填入。

其他配置保持默认即可,单击训练。

在计费提醒对话框中,单击确定。

训练数据集我选择了默认路径,也就是会使用PAI平台提供的医疗对话数据集。如果想用自己的数据集进行微调,需要先在OSS中上传自定义数据集,然后在数据集配置位置,选择自己的数据集OSS路径。如下:

如果此刻不小心退出了任务页面,在快速开始——Model Gallery页面,单击任务管理,在训练任务页签可以找到刚才创建的所有任务。

等待4分钟后,服务状态变为成功,表示训练任务完成。

接下来在训练任务详情页右上角点击部署,配置保持默认即可,部署微调后的模型。

服务部署完成后,单击查看WEB应用,进入WebUI界面,在线体验模型效果。

这次我还是使用上面的问题,看微调后的模型回答效果如何。

可以看到微调后的模型回答更专业一些,不再存在摆烂问题了。

完成所有部署体验后,非常重要且必要的步骤就是任务的清理,这里也不例外。在快速开始页面,单击任务管理。将涉及的任务进行删除。本次体验涉及部署任务和训练任务,分别进行删除。如下:

此外,模型微调训练用到了OSS,清理需要先删除所有文件再删除Bucket。在文件列表页面,选中所有文件,单击彻底删除。再单击删除Bucket,然后单击立即删除。

体验总结

整个体验下来,最直观的感受就是:

第一、高效便捷:PAI-QuickStart提供了零代码和SDK两种方式,极大地简化了模型的开发和部署流程,且提供的模型涵盖了多个领域,如大语言模型、文本生成图片、语音识别等。这使得开发者可以通过零代码或少量代码的方式,快速实现模型的微调和部署。此外,人工智能平台PAI提供了一站式的机器学习和深度学习平台支持,为开发者提供了全面的技术支持,降低了技术门槛。

第二、灵活便利:用户可以根据自己的需求选择不同规模的模型,并通过微调训练使模型更加符合自己的业务场景。在训练数据集方面,用户不仅可以使用公共的数据集,还可以结合OSS上传自己的数据集,极大地方便了开发者真实的场景需求。通义千问等大语言模型具有广泛的应用场景,如智能客服、内容创作、问答系统等。通过PAI-QuickStart实现模型的微调和部署,可以快速将这些模型应用于实际业务中,提升业务效率和用户体验。

此外,除了具备上述优点外,当下还存在如下不足:

第一、大语言模型的微调和部署需要大量的计算资源。尤其是在对大型模型进行微调时,可能需要使用高性能GPU等硬件资源,这会增加成本投入。比如本次体验使用的Qwen2-0.5B模型最低需要使用NVIDIA A10及以上卡型运行训练任务;而Qwen2-57B-A14B量级模型则需要更高配置的硬件资源。不过好在对于新用户体验有免费额度可用,也有相应的免费试用实例可选。

第二、存在模型能力泛化。尽管微调后的模型在特定任务上表现优异,但其泛化能力可能受到一定限制。在某些特定场景下,微调模型的表现可能不如专业的领域模型。

第三、GUI简陋。部署完成后的界面着实有点简约啊,而且还不支持Enter建,每次完成输入都需要点击固有的Send方可发送,对于习惯了大众输入法的我们来说这点着实需要适应一会。

第四、费用有点高。一通操作后,虽然有PAI-EAS的节省计划,但这个按量付费还是消耗挺高的,主要是模型训练部署实例所需的高规格ECS。明细如下:

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
1月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
56 7
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之机器学习PAI的学习方法不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
34 9
|
29天前
|
机器学习/深度学习 存储 人工智能
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
66 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
【7月更文挑战第27天】在数据驱动时代,Python以丰富的库成为数据科学首选。Scikit-learn因简洁高效而备受青睐,引领数据分析革命。本文引导您使用Scikit-learn简化机器学习流程。首先通过`pip install scikit-learn`安装库。接着使用内置数据集简化数据准备步骤,例如加载Iris数据集。选择合适的模型,如逻辑回归,并初始化与训练模型。利用交叉验证评估模型性能,获取准确率等指标。最后,应用训练好的模型进行新数据预测。Scikit-learn为各阶段提供一站式支持,助力数据分析项目成功。
42 0
|
2月前
|
机器学习/深度学习 存储 分布式计算
PAI机器学习平台如何进行分布式训练?
【7月更文挑战第1天】PAI机器学习平台如何进行分布式训练?
64 1
|
2月前
|
机器学习/深度学习 人工智能 算法
【机器学习】大模型训练的深入探讨——Fine-tuning技术阐述与Dify平台介绍
【机器学习】大模型训练的深入探讨——Fine-tuning技术阐述与Dify平台介绍
|
4月前
|
人工智能 对象存储 异构计算
AI模型推理服务在Knative中最佳配置实践
Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,对于一些需要频繁变动计算资源的AI应用,如模型推理等尤其明显。那么在Knative上部署AI模型推理时可以遵循这些最佳实践,以提升AI推理服务能力和GPU资源利用率。
|
4月前
|
机器学习/深度学习 人工智能 NoSQL
人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

相关产品

  • 人工智能平台 PAI