备案控制台

开发者社区云计算文章正文

大语言模型一键转存到OSS并挂载PAI实现企业知识库

2023-10-07 790 发布于浙江

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储OSS，敏感数据保护2.0 200GB 1年

对象存储 OSS，内容安全 1000 次 1年

简介： 本文介绍如何实现一键转载主流的大语言模型到自己的对象存储OSS空间中，然后再挂载到PAI-DSW实现多种模型切换测试知识库的效果。

步骤一：通过《LLM模型库，专属知识库大模型惹你选》活动页面转存模型文件

如果您已经通过活动页面将SD模型库文件转存到了自己的OSS Bucket中，请跳过步骤一。

进入《LLM模型库，专属知识库大模型任你选》页面活动，在方案1：使用对象存储 OSS 作为模型库存储空间处单击一键复制。

单击一键复制按钮后，将会弹出公共库转存信息对话框，输入新建对象存储OSS Bucket名称，此处示例填写osslibtestforllm；地域请从杭州，上海，北京，乌兰察布这四个Region选择，此处选择华东2（上海）；选择大语言模型的来源，此处选择来自Huggingface；签署转存的授权协议；最后单击确认转存。

确认转存后几秒钟，将会弹出文件框提示转存成功，记录对象存储OSS Bucket名称为 osslibtestforllm。

前往对象存储OSS控制台，确认您刚才转存的模型文件。在Bucket列表找并单击osslibtestforllm

进入Bucket的文件管理-文件列表处，然后逐个单击文件夹，进入/data-oss/models的目录，可以看到模型文件已经转存进来。

步骤二：将OSS模型库挂载到PAI-DSW

您已经将LLM模型库转存至了自己的对象存储OSS中，该存储空间中的模型可以在LLM的WebUI中进行快速切换测试。

符合试用条件的新用户可领取PAI-DSW免费试用资源包，领取链接。

【重要】：PAI-DSW免费资源包只适用于本教程中的PAI-DSW产品。如果您领取了PAI-DSW资源包后，使用了PAI-DSW及PAI的其他产品功能（如PAI-DLC、PAI-EAS等），PAI-DSW产品产生的费用由资源包抵扣，其他产品功能产生的费用无法抵扣，会产生对应的费用账单。

前往PAI控制台。开通机器学习PAI并创建默认工作空间。其中关键参数配置如下，更多详细内容，请参见开通并创建默认工作空间。如果您后续使用RAM用户来创建DSW实例进行开发，请先将RAM用户添加为默认工作空间的成员，并配置算法运维/管理员角色，详情请参见管理成员。

本教程地域选择：华东2（上海）。
组合开通：本教程无需使用其他产品，去除勾选其他产品即可。
服务角色授权：单击去授权，完成服务角色授。

进入PAI管理控制台，确认区域为华东2（上海），确认进入了刚才创建的工作空间，单击数据集，进入数据集页面。

创建方式选择从阿里云云产品
数据集名称此处设置为huggingfacellm
选择数据存储为阿里云对象存储（OSS）
属性为文件夹
选择对象存储Bucket名为osslibforllm，选择OSS目录为data-oss/LLM，最终地址会显示为oss://osslibforllm.oss-cn-shanghai.aliyuncs.com/data-oss/LLM/
默认挂载路径为/mnt/data
单击提交

查看基于LangChain的检索知识库问答WebUI案例，请注意此处备注不同规模的模型所需要的显卡资源规格要求，然后在右上角单击在阿里云DSW打开。

单击后会弹出如下的页面，确认可用区为华东2（上海），如果您是新用户将不会有任何已有资源，请单击新建DSW实例。
实例创建页面配置：

选择华东2（上海）区域，实例名称此处设置为langchainLLM，资源组选择公共资源组-按量付费
本教程选择公共资源组-按量付费资源资源组：GPU规格，规格名称为ecs.gn6v-c8g1.2xlarge。【说明】：阿里云免费试用提供的资源类型包括以下几种类型：

ecs.gn7i-c8g1.2xlarge
ecs.g6.xlarge
ecs.gn6v-c8g1.2xlarg

存储配置：单击共享数据集按钮，选择刚才创建的数据集huggingfacellm，挂载路径为/mnt/data/
镜像选择：官方镜像，选择modelscope:1.9.3-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04版本，然后单击下一步。

e.在总结页面查看配置，然后单击创建实例。

f. 创建实例后，跳转到如下的页面，等待实例状态显示运行中后，单击实例名称langchainLLM。

步骤三：快速模型切换和测试多个LLM大模型

打开刚刚创建完成的实例，按照Notebook中的步骤逐一执行。(推荐使用huggingface的模型)

执行完毕后，将会弹出一个url的地址，单击http://0.0.0.0:7860

启动WebUI之后，根据oss挂载的模型来源，将llm_source切换成对应的模型来源，此处切换为huggingface，然后重新选择large language model为ChatGLM-6B-int8，最后单击重新加载模型按钮即可自动切换模型。完全按照案例执行，您在执行时可以秒级切换chatglm系列、baichuan-inc/Baichuan2-7B-Chat-4bits、Qwen/Qwen-7B模型，并对比验证模型效果。

此处可以使用样例文本数据来训练和交互提问，您也可以在WebUI左下角按照指引上传自己的知识库文件。

文章标签：

对象存储

对象存储

机器学习/深度学习

运维

算法

存储

关键词：

企业云效知识库 Thoughts

大语言模型云效知识库 thoughts

人工智能平台 PAI oss

对象存储挂载

人工智能平台 PAI企业

相关实践学习

借助OSS搭建在线教育视频课程分享网站

本教程介绍如何基于云服务器ECS和对象存储OSS，搭建一个在线教育视频课程分享网站。

Developer_Aliyun

+关注

目录

打赏

0

1

0

0

89

相关文章

阿里云大数据Al技术

|

1月前

|

人工智能 JSON 自然语言处理

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型，为用户构建符合应用场景的多维度、细粒度的评测体系，支持单模型评测和双模型竞技两种模式，允许用户自定义参数，实现准确、灵活、高效的模型自动化评测，为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下，PAI-Judge 系列模型表现优异，可以直接用于大模型的评估与质检。

阿里云大数据Al技术

133 8 8

阿里云大数据Al技术

|

3月前

|

人工智能 Kubernetes Cloud Native

跨越鸿沟：PAI-DSW 支持动态数据挂载新体验

本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架，以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示，进一步展示了动态挂载功能的实际应用效果和优势。

阿里云大数据Al技术

328 9 9

三分钟热度的鱼

|

9月前

|

机器学习/深度学习人工智能专有云

人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中

阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台，旨在降低AI开发门槛，加速创新，助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务，共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述，涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

三分钟热度的鱼

133 0 0

阿里云大数据Al技术

|

6月前

|

人工智能算法测试技术

PAI 大语言模型评测平台现已支持裁判员模型评测

本文将为您介绍如何在 PAI 大语言模型评测平台，基于裁判员模型，评价开源模型或者微调后模型的性能。该功能限时免费，欢迎使用。

阿里云大数据Al技术

396 8 8

算精通

|

7月前

|

云栖大会对象存储

PAI-EAS 和 OSS 免费资源包

【9月更文挑战第23天】

算精通

90 8 8

六月的雨在钉钉

|

8月前

|

机器学习/深度学习人工智能自然语言处理

基于PAI 低代码实现大语言模型微调和部署

【8月更文挑战第10天】基于PAI 低代码实现大语言模型微调和部署

六月的雨在钉钉

164 2 2

阿里云大数据Al技术

|

10月前

|

机器学习/深度学习算法开发工具

通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践

阿里云的人工智能平台PAI，作为一站式的机器学习和深度学习平台，对Qwen2模型系列提供了全面的技术支持。无论是开发者还是企业客户，都可以通过PAI-QuickStart轻松实现Qwen2系列模型的微调、评测和快速部署。

阿里云大数据Al技术

61934 19 25

阿里云大数据Al技术

|

9月前

|

机器学习/深度学习算法开发工具

大语言模型的直接偏好优化（DPO）对齐在PAI-QuickStart实践

阿里云的人工智能平台PAI，作为一站式的机器学习和深度学习平台，对DPO算法提供了全面的技术支持。无论是开发者还是企业客户，都可以通过PAI-QuickStart轻松实现大语言模型的DPO对齐微调。本文以阿里云最近推出的开源大型语言模型Qwen2（通义千问2）系列为例，介绍如何在PAI-QuickStart实现Qwen2的DPO算法对齐微调。

阿里云大数据Al技术

34899 2 6

嘟嘟嘟嘟嘟嘟

|

10月前

|

机器学习/深度学习人工智能分布式计算

人工智能平台PAI产品使用合集之如何删除oss路径上特定的模型

阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台，旨在降低AI开发门槛，加速创新，助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务，共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述，涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

嘟嘟嘟嘟嘟嘟

118 2 2

嘟嘟嘟嘟嘟嘟

|

10月前

|

机器学习/深度学习人工智能分布式计算

人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练，需要访问yyy项目空间的OSS，出现报错，是什么导致的

阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台，旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时，可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

嘟嘟嘟嘟嘟嘟

100 1 1

热门文章

最新文章

回答我！会不会搭建 DeepSeek 版个人知识库？

Dify x Tablestore 构建低成本、Serverless 知识库

Spring AI与DeepSeek实战三：打造企业知识库

WiseMindAI：一款AI智能知识库，数据完全本地化，支持文档对话、10+种文档、10+AI大模型等

炸裂！！！Deepseek接入个人知识库，回答速度飞起来，确实可以封神了

【AI落地应用实战】大模型加速器2.0：基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统

知识库管理：全流程智能化中枢，驱动企业信息资产高效流转

深度学习如何让“运维知识库”从“聪明”到“智慧”

23.5K star！零代码构建AI知识库，这个开源神器让问答系统开发像搭积木一样简单！

【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山

智能化运维：如何利用AI和机器学习优化IT基础设施管理

数据驱动的未来已来：利用Scikit-learn，解锁Python数据分析与机器学习新境界！

从菜鸟到大师：Scikit-learn库实战教程，模型训练、评估、选择一网打尽！

智能决策新引擎：Python+Scikit-learn，打造高效数据分析与机器学习解决方案！

数据海洋中的导航者：Scikit-learn库引领Python数据分析与机器学习新航向！

智能化运维：利用机器学习优化系统性能

智能运维：机器学习在系统维护中的应用与挑战

探索机器学习中的自然语言处理技术

机器学习新纪元：用Scikit-learn驾驭Python，精准模型选择全攻略！

从零到精通：Scikit-learn在手，数据分析与机器学习模型评估不再难！

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

阿里巴巴机器学习平台AI

微博机器学习平台架构和实践

机器学习及人机交互实战

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

基于ECS和OSS快速搭建个人简历网站

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

对象存储OSS Bucket冗余类型转换

基于OSS搭建云上个人博客

搭建基于OSS的图片分享网站

下一篇

oss创建bucket

目录

目录