基于PAI-QuickStart搭建一站式模型训练服务体验

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 【8月更文挑战第5天】基于PAI-QuickStart搭建一站式模型训练服务体验

部署过程

在开始正式部署前,我们有必要了解下本次体验的产品是什么,阿里云人工智能平台PAI-快速开始(PAI-QuickStart)集成了业界流行的预训练模型,提供一站式、零代码的模型微调训练、服务部署、模型评测功能,帮助用户快速上手使用AI能力。

从产品的概念上我们很直观清楚地知道PAI-快速开始(PAI-QuickStart)是为模型预训练而生,用户可以通过它实现一站式、零代码、快速上手使用AI能力。

下面开始具体的部署体验,登录PAI控制台,如果你是首次使用PAI,会需要先开通个默认的工作空间。如下:

为了方便,这里地域就直接选择了杭州。如下:

由于本次体验后面的模型微调训练要用到OSS服务,所以组合服务这里我们需要勾选OSS,方便一并开通;如果你之前已经开通过OSS,这里忽略,以免产生不必要的费用。首次开通需要授权,点击授权前往RAM访问控制。如下:

点击同意授权即可。如下:

完成授权后返回点击刷新,继续点击“确认开通并创建默认工作空间”。如下:

这里需要等待一小会,即可完成服务的开通。如下:

在左侧导航栏单击工作空间列表,在工作空间列表页面中单击默认工作空间名称,可以进入对应工作空间内。

在工作空间页面的左侧导航栏中单击快速开始,这里提供两种模式,一种Model Gallery,一种是Model Gallery;这里我们选择Model Gallery。如下:

找到模型通义千问2-0.5B-Instruct(qwen2-0.5b-instruct)并单击。如下:

在模型详情页面,可以看到有关模型的介绍以及部署说明。

此刻我们可以单击右上角的部署进行模型的部署,在部署面板,配置保持默认即可,单击部署。如下:

在计费提醒对话框中,单击确定。如果此刻你需要了解计费,可以点击链接查看。

服务创建过程中,可以通过点击服务日志,查看具体执行过程。

当然这里你还可以通过点击查看部署事件,查看到具体执行了那些事件。

等待6分钟后,服务状态变为运行中,表示服务部署成功。如下:

服务部署完成后,单击查看WEB应用,即可开启在线体验模型了。

我们开始与大模型进行对话。可以提问如下医疗方向问题:

但从结果来看,模型回复虽然看似效果还可以,但是由于没有进行针对性的数据集微调,所以在医疗方向的回复还是稍显不专业。不过我们可以多尝试让模型生成几次,对比看看。

从多次尝试的结果来看,唯有头两次还算配合,积极作答,后面就直接摆烂了,着实体验不佳。

到此,基础模型直接部署过程就完成了,相较于传统部署,这个效率还是非常高效的。

接下来,我们开始模型的微调训练部署。在通义千问2-0.5B-Instruct模型详情页面,单击右上角的微调训练。如下:

在微调训练面板的训练输出配置区域,需要选择微调后模型的输出保存路径(OSS目录),由于当前区域没有可用的OSS,所以这里还需要新建Bucket,单击面板中的创建Bucket。

Bucket完成后,就可以直接选择填入。

其他配置保持默认即可,单击训练。

在计费提醒对话框中,单击确定。

训练数据集我选择了默认路径,也就是会使用PAI平台提供的医疗对话数据集。如果想用自己的数据集进行微调,需要先在OSS中上传自定义数据集,然后在数据集配置位置,选择自己的数据集OSS路径。如下:

如果此刻不小心退出了任务页面,在快速开始——Model Gallery页面,单击任务管理,在训练任务页签可以找到刚才创建的所有任务。

等待4分钟后,服务状态变为成功,表示训练任务完成。

接下来在训练任务详情页右上角点击部署,配置保持默认即可,部署微调后的模型。

服务部署完成后,单击查看WEB应用,进入WebUI界面,在线体验模型效果。

这次我还是使用上面的问题,看微调后的模型回答效果如何。

可以看到微调后的模型回答更专业一些,不再存在摆烂问题了。

完成所有部署体验后,非常重要且必要的步骤就是任务的清理,这里也不例外。在快速开始页面,单击任务管理。将涉及的任务进行删除。本次体验涉及部署任务和训练任务,分别进行删除。如下:

此外,模型微调训练用到了OSS,清理需要先删除所有文件再删除Bucket。在文件列表页面,选中所有文件,单击彻底删除。再单击删除Bucket,然后单击立即删除。

体验总结

整个体验下来,最直观的感受就是:

第一、高效便捷:PAI-QuickStart提供了零代码和SDK两种方式,极大地简化了模型的开发和部署流程,且提供的模型涵盖了多个领域,如大语言模型、文本生成图片、语音识别等。这使得开发者可以通过零代码或少量代码的方式,快速实现模型的微调和部署。此外,人工智能平台PAI提供了一站式的机器学习和深度学习平台支持,为开发者提供了全面的技术支持,降低了技术门槛。

第二、灵活便利:用户可以根据自己的需求选择不同规模的模型,并通过微调训练使模型更加符合自己的业务场景。在训练数据集方面,用户不仅可以使用公共的数据集,还可以结合OSS上传自己的数据集,极大地方便了开发者真实的场景需求。通义千问等大语言模型具有广泛的应用场景,如智能客服、内容创作、问答系统等。通过PAI-QuickStart实现模型的微调和部署,可以快速将这些模型应用于实际业务中,提升业务效率和用户体验。

此外,除了具备上述优点外,当下还存在如下不足:

第一、大语言模型的微调和部署需要大量的计算资源。尤其是在对大型模型进行微调时,可能需要使用高性能GPU等硬件资源,这会增加成本投入。比如本次体验使用的Qwen2-0.5B模型最低需要使用NVIDIA A10及以上卡型运行训练任务;而Qwen2-57B-A14B量级模型则需要更高配置的硬件资源。不过好在对于新用户体验有免费额度可用,也有相应的免费试用实例可选。

第二、存在模型能力泛化。尽管微调后的模型在特定任务上表现优异,但其泛化能力可能受到一定限制。在某些特定场景下,微调模型的表现可能不如专业的领域模型。

第三、GUI简陋。部署完成后的界面着实有点简约啊,而且还不支持Enter建,每次完成输入都需要点击固有的Send方可发送,对于习惯了大众输入法的我们来说这点着实需要适应一会。

第四、费用有点高。一通操作后,虽然有PAI-EAS的节省计划,但这个按量付费还是消耗挺高的,主要是模型训练部署实例所需的高规格ECS。明细如下:

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
4月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
4月前
|
缓存 人工智能 负载均衡
PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长
阿里云人工智能平台PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B冷启动时间从953秒降至82秒(降幅91.4%),扩容时间缩短98.2%。
|
9月前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
8月前
|
机器学习/深度学习 数据采集 人工智能
MATLAB在机器学习模型训练与性能优化中的应用探讨
本文介绍了如何使用MATLAB进行机器学习模型的训练与优化。MATLAB作为强大的科学计算工具,提供了丰富的函数库和工具箱,简化了数据预处理、模型选择、训练及评估的过程。文章详细讲解了从数据准备到模型优化的各个步骤,并通过代码实例展示了SVM等模型的应用。此外,还探讨了超参数调优、特征选择、模型集成等优化方法,以及深度学习与传统机器学习的结合。最后,介绍了模型部署和并行计算技巧,帮助用户高效构建和优化机器学习模型。
MATLAB在机器学习模型训练与性能优化中的应用探讨
|
10月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
585 22
|
9月前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
450 8
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
515 7
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
223 9
|
前端开发 开发者 设计模式
揭秘Uno Platform状态管理之道:INotifyPropertyChanged、依赖注入、MVVM大对决,帮你找到最佳策略!
【8月更文挑战第31天】本文对比分析了 Uno Platform 中的关键状态管理策略,包括内置的 INotifyPropertyChanged、依赖注入及 MVVM 框架。INotifyPropertyChanged 方案简单易用,适合小型项目;依赖注入则更灵活,支持状态共享与持久化,适用于复杂场景;MVVM 框架通过分离视图、视图模型和模型,使状态管理更清晰,适合大型项目。开发者可根据项目需求和技术栈选择合适的状态管理方案,以实现高效管理。
137 0

相关产品

  • 人工智能平台 PAI