大模型规模化落地,企业AIGC应用支持多个大语言模型(LLM)切换及GPU规划化管理(PAI-EAS + ADB-PG)

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 随着年初的ChatGPT引爆大语言模型市场, LLM的集中爆发,大部分企业已经完成了AIGC产品的调研,并进入第二阶段, 即寻求大规模落地的AIGC产品解决方案。本文介绍了如何企业规模化大语言模型落地,支持多个模型的快速使用,包括通义千问-7b,ChatGLM-6b,Llama2-7b ,Llama2-13b,百川-13b和Falcon-7b。

背景

随着年初的ChatGPT引爆大语言模型市场, LLM的集中爆发,大部分企业已经完成了AIGC产品的调研,并进入第二阶段, 即寻求大规模落地的AIGC产品解决方案。

当前企业在AIGC场景落地中,以下问题尤为突出:

  1. 多模型选择: 随着大模型的百花齐放, 不同的模型在各自的领域有不同的优势,如何能够快速选择模型,试用模型并将其产品化,更敏捷的模型使用成为了企业最主要的诉求;
  2. 规划化管理GPU: GPU非常昂贵,对GPU的合理使用成为了企业最需要精细化管理的资源,面对高峰使用的GPU扩展,和低谷使用时GPU的释放是云提供给客户的核心竞争力;
  3. 更精细化的权限管理:基于知识库 + LLM的应用不同于以往的全量向量检索,企业将面临多租户,多应用,复杂的知识权限管理的问题, 需要足够灵活的调整以适应千企千面的权限设计诉求;
  4. API 集成: 支持灵活的API管理,可供应用进行集成,满足用户灵活的多渠道应用使用诉求(如钉钉,企业微信等);
  5. 数据泄露隐患: 担心大模型或者文档切分需要将企业核心数据传至三方,存在数据泄露隐患而迟迟不敢大规模使用;


最新版本的一站式AIGC解决方案面向以上企业落地难的问题进行了产品升级,引入了PAI-EAS的能力,让企业测试完成后,可以直接投入生产环境进行使用;


产品新版本主要特性:

新版本在原来开放的方案之上, 引入了PAI-EAS对底层规模化集群的管理能力进行了大幅的升级!

  1. 支持多模型通义千问-7b,ChatGLM-6b,Llama2-7b ,Llama2-13b,百川-13b和Falcon-7b; 支持创建后再进行模型切换;
  2. 支持GPU的集群管理: 在测试的过程中可以使用低水位的GPU实例,随着业务的增长, 可以设置基于资源使用情况的动态GPU集群弹性管理,最大程度地节省GPU的开销;
  3. 基于ADB-PG 的完整数据库能力进行精细化的权限设计,可以基于开源代码调整权限查询,同时ADB-PG的知识库管理配套相关API,可以更灵活地调用使用;
  4. API & WebUI的均可用,可快速实现AIGC后台面向应用的灵活集成;
  5. 数据安全: 所有数据,算法,GPU资源均为域内资源, 无任何数据出域风险,充分保障企业核心数据无泄露隐患;

点击:立即开通使用




如何开通解决方案

计算巢涉及到3个部分的核心组件

  1. ECS : 用于承载Langchain应用,管理对话体验及提供文档上传,embedding,对话的API应用;

开源代码参考:https://github.com/wangxuqi/langchain-ChatGLM

  1. AnalyticDB for PostgreSQL: 核心向量引擎, 用于管理企业知识库,语义检索,融合查询等能力; 用户未来可独立管理数据库数据并基于业务诉求进行资源灵活调整;
  2. PAI-EAS:  核心GPU集群管理及模型服务,预置多款模型,提供模型部署服务与GPU集群的弹性管理;

产品架构图


开通配置

  • 配置模板: 可选择PAI-EAS的配置模板

  • 服务实例名称: 填写实例的服务名称, 空白会自动生成;
  • 地域: 选择资源部署地域

ECS配置:

  • 实例类型: 选择ECS实例类型,用于host Langchain应用
  • 实例密码: 用于设置登录ECS实例机器密码
  • 白名单设置: 用于选择服务可访问的公网ip地址,若所有ip可访问,可输入0.0.0.0/0; (若选择0.0.0.0/0,则仅可用langchain服务所支持的账号密码进行保护)


大语言模型及PAI-EAS的GPU规格选择

  • 选择大模型: 可选择预置的大语言模型;通义千问-7b,ChatGLM-6b,Llama2-7b ,Llama2-13b,百川-13b和Falcon-7b;
  • PAI实例规格: 选择大模型后可选择PAI服务的GPU规格,若无库存则无法选中; GU30为推荐的高性价比规格;

image.png

AnalyticDB for PostgreSQL版本配置

默认为双节点模式

  • 实例规格: 选择ADB-PG 的默认节点规格,建议选择最低规格,若后期计算资源不足可以垂直调整;
  • 存储大小: 选择ADB-PG的默认存储大小,建议选择最低规格,后期可按需调整;
  • 数据库账号名称: 可用于登录数据库实例,并会以此账号链接Langchain服务用于数据写入;
  • 数据库密码: 对应的数据库密码,登录数据库使用;

Langchain应用配置

  • 软件登录名: 用于登录langchain web服务账号
  • 软件登录密码: 用户登录Langchain web服务密码

网络及可用区选择

解决方案会默认帮客户创建一个权限的VPV及vswitch,并将所有的资源归属于该vpc和vswitch网段下;

  • 交换机可用区: 用于创建用户的对应的交换机 vswitch
  • 专有网络ipv4网络: 新创建一个VPN对应的网段;(建议使用默认值)
  • 交换机子网网段: 新建一个vswitch的对应网段;(建议使用默认值)


若已有的vpc,可选择不创建而使用已有的vpc,信息均可通过下拉列表进行选择;


配置好资源和账号后,点击下一步进行鉴权和账单确认;

  • 权限依赖检查: 开通服务会依赖以下权限, 若发现权限遗漏,则需要点击开通权限;

  • 账单确认:基于选择规格,可查看预计使用费用;

确认无误后可直接下单;

创建过程约10分钟左右,包括完成资源拉起;


点击:立即开通使用


开始应用

创建后,可以在控制台查看计算巢服务;

控制台链接: https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstance/private


登录链接后可点击endpoint进入Langchain的应用:

如何使用Langchain构建知识库

  • 选择使用模式: 知识库问答
  • 创新的知识库
  • 建议文本切分长度 = 500
  • 上传文件,支持PDF, markdown,txt,word等;
  • 上传后可在左侧“对话”界面进行问答, 每次问答会返回向量知识库中涉及到的企业知识文档;
  • 可在“知识库测试Beta”中进行召回准确性和切分测试;
  • 在模型设置中,可选择多轮对话机制,算法及一些模型参数;


点击:立即开通使用


资源管理:

购买计算巢后,可以登录计算巢实例内,切换至“资源”页,可查看所有相关资源;

AnalyticDB for PostgreSQL

点击AnalyticDB for PostgreSQL对应链接可进入ADB-PG资源管理页;

快速了解analyticDB for PostgreSQL


AnalyticDB for PostgreSQL集群管理

对于生产规模化的资源诉求,如存在需要额外的存储和更快的计算,可参考一下进行集群管理


知识库存储格式

对于langchain进入的知识库可在AnalyticDB for PostgreSQL中快速查询相关文档及知识库数据

  • 通过DMS工具登录ADB-PG: https://help.aliyun.com/document_detail/2369763.html; 登录账号为您在创建计算巢时设置的账号名及密码;
  • 登录后数据库实例 - 已登录实例 - 数据库(基于用户名)- public(schema)下看到创建的知识库元数据及多个知识库(表)

所有的知识库列表存储在 langchain_collections表内;

单个知识库及文档上传后的企业知识chunk,存储于以知识库命名的表内; (包括embedding,chunk,文件元数据,原始文件名称等信息);


PAI-EAS

如何设置GPU Serverless弹性伸缩管理?

PAI-EAS提供丰富的Serverless资源弹性能力,包括弹性扩缩容定时扩缩容弹性资源池。在业务负载有显著的波峰波谷时,为了不造成资源浪费,您可以开启水平自动扩缩容功能。开启后,服务会自动调整实例数量,实现动态管理线上服务的计算资源,从而保障业务平稳运行的同时提高资源利用率。操作方式如下:

  1. 部署好计算巢的服务后,点击资源列表,找到PAI-EAS实例跳转到对应的控制台。

  1. 在PAI-EAS控制台的服务详情页中,点击自动伸缩,继续开启弹性伸缩。

  1. 在弹性伸缩配置里面,您可以根据自己的业务的实际情况进行弹性的调整。
  • 场景一:如果您调用量不大,想进行随开随停。您可以将最小实例数设置为0,最大实例数设置为1,单实例QPS预置设置为1。此时当没有服务请求时,服务会自动停止;服务重新接受请求时,服务会自动启动。

  • 场景二:如果您每天的业务量较大且有不定期的波峰波谷时,您可以根据具体的业务情况,例如设置最小实例数设置为5,最大实例数设置为50,单实例QPS预置设置为2。这样服务会根据您的业务请求自动在5~50个实例之间进行弹性伸缩。

如何更换为其他的开源大模型?

PAI-EAS提供了市面上几乎全部的流行开源大模型可以供您自由切换。方法如下:

  1. 在PAI-EAS控制台的服务详情页中,点击更新服务。

  1. 修改运行命令和相应的GPU资源,从而调整为相应的大模型,最后点击部署即可。

模型

运行命令

推荐机型

llama2-13b

python api/api_server.py --port=8000 --model-path=meta-llama/Llama-2-13b-chat-hf --precision=fp16

V100(gn6e)

llama2-7b

python api/api_server.py --port=8000 --model-path=meta-llama/Llama-2-7b-chat-hf

GU30、A10

chatglm2-6b

python api/api_server.py --port=8000 --model-path=THUDM/chatglm2-6b

GU30、A10

Qwen-7b

python api/api_server.py --port=8000 --model-path=Qwen/Qwen-7B-Chat

GU30、A10

chatglm-6b

python api/api_server.py --port=8000 --model-path=THUDM/chatglm-6b

GU30、A10

baichuan-13b

python api/api_server.py --port=8000 --model-path=baichuan-inc/Baichuan-13B-Chat

V100(gn6e)

falcon-7b

python api/api_server.py --port=8000 --model-path=tiiuae/falcon-7b-instruct

GU30、A10


点击:立即开通使用


常见问题FAQ:

  1. 向量相关API使用方式

1. API 列表: https://help.aliyun.com/document_detail/2402354.html?

2. API使用范例: https://help.aliyun.com/document_detail/2410531.html?


  1. 创建服务后, 会在10分钟左右拉起您的计算巢服务; 包括初始化ECS, AnalyticDB for PostgreSQL(向量数据库); 同时会异步进行LLM大模型的下载,此过程需要花费大概30~60分钟; 若想要查看模型下载进度,可登录ecs后台,查询下载日志; 模型下载完成后,登录web界面后即可查看相关的chatbot应用;


  1. 创建计算巢服务后, 如何登录ecs的机器:

可直接进入ecs管理界面进行登录,或使用命令行; 参考计算巢概览页的信息,如下图所示:

  1. 登录ecs 后如何重启服务
systemctl restart langchain-chatglm



  1. 登录ecs 后如何查询langchain日志
journalctl -ef -u langchain-chatglm



  1. 服务完成后模型加载不成功?

刚开通服务后会从huggingface上下载LLM模型到本地; 国内region下载服务时间可能较长,需要等待30~60分钟; 请等待完成后登录界面后,选择重新加载模型进行重试;


  1. 部署代码详情

https://github.com/wangxuqi/langchain-ChatGLM


  1. 需要产品团队进行服务后台支持

请开通代客运维支持服务

https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstanceCreate?spm=5176.24779694.0.0.391f4d22JKgYle&ServiceId=service-ab3bac294c3140649e56


  1. 访问服务是空白页

这个服务是中国站的计算巢服务,所以如果有海外访问代理的话可能会出现问题,需要关一下代理然后进行访问创建;


  1. 代码部署位置
/home/admin/langchain-ChatGLM


  1. 如何开通Langchain API
#新建langchain-chatglm-api的systemd文件
cp /lib/systemd/system/langchain-chatglm.service /lib/systemd/system/langchain-chatglm-api.service
#修改/lib/systemd/system/langchain-chatglm-api.service中ExecStart
#PAI-EAS版
ExecStart=/usr/bin/python3.9 /home/langchain/langchain-ChatGLM/api.py
#GPU单机版
ExecStart=/usr/bin/python3.9 /home/admin/langchain-ChatGLM/api.py
#重新加载systemd
systemctl daemon-reload
#启动API
systemctl restart langchain-chatglm-api
# 然后启动日志看到这个就启动成功:
INFO:     Uvicorn running on http://0.0.0.0:7861 (Press CTRL+C to quit)
# 查看所有的api:
curl http://0.0.0.0:7861/openapi.json



点击:立即开通使用


咨询及帮助

若需要咨询或疑问,欢迎钉钉搜索交流:

钉钉群: 32960015260


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
近年来,大型语言模型(LLMs)在自然语言处理领域取得显著进展,研究人员开始探索将其应用于时间序列预测。Jin等人提出了LLM-Mixer框架,通过多尺度时间序列分解和预训练的LLMs,有效捕捉时间序列数据中的短期波动和长期趋势,提高了预测精度。实验结果显示,LLM-Mixer在多个基准数据集上优于现有方法,展示了其在时间序列预测任务中的巨大潜力。
61 3
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
|
29天前
|
人工智能 自然语言处理 前端开发
基于RAG和LLM的水利知识大语言模型系统开发有感
在数字化时代,水利行业的智能化管理尤为重要。本文介绍了基于大语言模型(LLM)和检索增强生成(RAG)技术的水利知识问答系统的开发过程。该系统结合了前沿AI技术和水利专业知识,通过构建全面的水利知识库,优化用户体验,确保系统的灵活性和可扩展性。项目展示了AI技术在垂直领域的巨大潜力,为水利行业的智能化发展贡献力量。
|
3月前
|
人工智能 自然语言处理
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
【8月更文挑战第22天】《FBI-LLM:通过自回归蒸馏从头开始扩展全二值化大语言模型》由Ma等学者发布于arXiv。该研究呈现了首个完全从头训练的全二值化大语言模型FBI-LLM,在不牺牲性能的前提下大幅降低计算资源需求。通过自回归蒸馏技术,FBI-LLM在多种任务上展现出与高精度模型相当的表现,为二值化模型的发展开辟新路径,并有望推动专用硬件的进步。研究者公开了所有相关资源以促进领域内的进一步探索。
56 10
|
21天前
|
人工智能 自然语言处理 数据挖掘
光速矩阵:专属AIGC营销人才工场,企业高效灵活的人才共享平台
在数字化和人工智能加速变革的时代,光速矩阵是一个创新的AIGC(人工智能生成内容)人才共享平台,为企业提供从创意策划到内容分发的全流程支持。平台汇聚了各类AIGC人才,通过智能匹配系统和灵活用工模式,帮助企业高效、低成本地获取优质内容创作服务,实现品牌营销的卓越增长。
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
52 3
【机器学习】大模型驱动下的医疗诊断应用
|
28天前
|
人工智能
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
【10月更文挑战第19天】在人工智能研究中,智能体的规划能力被视为核心竞争力。2022年,PlanBench基准用于评估大型语言模型(LLM)的规划能力,但进展缓慢。近期,OpenAI发布的o1模型在PlanBench上表现出显著改进,特别是在Blocksworld和Mystery Blocksworld领域中,准确率达到97.8%,但成本较高且缺乏正确性保证。研究还探讨了LLM与外部验证器结合的方法,以提高准确性和降低成本。
14 1
|
1月前
|
机器学习/深度学习 算法 PyTorch
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
56 1
|
1月前
|
人工智能 自然语言处理 物联网
企业内训|AIGC创意设计训练营-某时装上市公司
本企业培训课程是TsingtaoAI公司专为上海某时装上市公司的创意设计团队研发,课程系统介绍并深入解析当前领先的AI绘画及图像处理工具,旨在帮助学员全面掌握AI绘画的发展历程、核心原理及实际应用。第一天主要聚焦于AI绘画工具的使用与高级操作,包括Midjourney与Stable Diffusion的详细讲解、参数设置、模型训练及AI视频制作。第二天则深入探讨图像合成与编辑技术,涵盖Photoshop基础与高级技巧、ComfyUI在服装设计中的应用及专题技术实践。通过丰富的案例实操与互动答疑,学员将能够熟练运用多种AI工具,提升图像创作与处理的效率与质量。
39 3
|
1月前
|
机器学习/深度学习 人工智能 缓存
基于AIGC的自动化内容生成与应用
基于AIGC的自动化内容生成与应用
72 3
|
1月前
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
460 1

热门文章

最新文章

相关产品

  • 云原生数据仓库 AnalyticDB PostgreSQL版