部署DeepSeek,你的GPU够用吗?

简介: 本文介绍如何将 DeepSeek-R1 开源模型部署到 GPU 云服务器,在 GPU 云服务器上安装与配置 Ollama 和 Open WebUI。

引言

随着DeepSeek的热度不断攀升,关于如何复现或部署DeepSeek的文章层出不穷。无论是直接在官网使用,还是通过三方平台调用,无论是API接入亦或是本地及云端部署,归根结底还是在根据具体的情况从性能、费用和安全性的不可能三角中寻找平衡。


对大多数普通用户来说,第三方平台提供的网页、客户端和 API 服务可能是最便捷的选择。例如,阿里云推出的百炼API调用,具体教程可参考历史文章,这些服务不仅易于上手,还能提供稳定的支持和维护,确保用户体验的流畅性。


🔗100万免费 Token!DeepSeek-R1满血版即刻拥有


对于那些希望进一步自主部署但资源有限,并且需要推理加速和支持并发的用户,更便捷的云上一键部署方案是理想选择。这种方案开箱即用,具备弹性可伸缩和充足的算力优势,允许用户基于私有数据进行模型微调和参数调整,以适配垂直领域的需求。


🔗阿里云PAI 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型


基于函数计算部署 DeepSeek 模型,支持 Ollama/Transformers 等框架,并能构建多样化的模型对话界面,如 OpenWebui 和 ChatGPTNext。对于技术爱好者,试图做出更多尝试并且期望获得完全自主可控大模型的用户,使用 GPU 部署可以根据需求自定义环境配置,例如安装特定版本的 CUDA 和深度学习框架等。


🔗0代码!2种方式一键部署 DeepSeek 系列模型


GPU 服务器提供了强大的计算能力,适用于深度学习、科学计算、图形可视化和视频处理等多种应用场景。云端部署的优势:


部署效率与易用性

云端部署无需复杂的环境配置和硬件搭建,简单几步,最快 10 分钟就能快速实现不同尺寸的 DeepSeek 模型部署和应用。


算力需求与成本优化

云端部署提供了弹性、充足的算力支持,同时相比本地部署需要购买和维护昂贵的 GPU 硬件,云端部署按需付费的模式可以显著降低硬件成本。


唾手可得的创新资源

云端部署支持快速迭代和优化,开发者可以利用云平台提供的工具和资源,快速进行模型训练、调优和更新,加速创新。


模型部署

本文介绍如何将 DeepSeek-R1 开源模型部署到 GPU 云服务器,在 GPU 云服务器上安装与配置 Ollama 和 Open WebUI。Ollama 负责托管 DeepSeek-R1 模型,Open WebUI 则为用户提供友好的交互界面。GPU 云服务器凭借其高性能并行计算架构,可以显著加速大模型的推理过程,特别是在处理大规模数据和高并发场景,可以有效提升推理速度和推理吞吐量。专有网络 VPC 和交换机用于资源隔离和安全管理,确保数据传输的安全性和网络的高可靠性。


本文以 DeepSeek-R1-Distill-Qwen-7B 为例进行演示,该版本是一个通过知识蒸馏技术从小型化模型中提取推理能力的高性能语言模型。它是基于 DeepSeek-R1 的推理能力,通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。用户可以根据实际需求选择其他参数规模的 DeepSeek-R1 模型,并相应调整实例规格配置。


方案架构


按照本方案提供的配置完成部署后,会在阿里云上搭建一个如下图所示的运行环境。实际部署时,您可根据具体的资源规划调整部分配置,但最终的运行环境将与下图展示的架构相似。

image.png


环境准备


在开始部署模型之前,需要进行一系列的环境准备工作。这些步骤包括创建专有网络 VPC 和交换机、配置安全组、创建 GPU 云服务器实例。


一、创建专有网络 VPC 和交换机


您需要创建专有网络 VPC 和交换机,为云服务器 ECS 实例构建云上的私有网络。

  1. 登录专有网络管理控制台[1]。
  2. 在顶部菜单栏,选择华东 1(杭州)地域。
  3. 在左侧导航栏,单击专有网络。
  4. 在专有网络页面,单击创建专有网络。
  5. 在创建专有网络页面,配置 1 个专有网络和 1 台交换机。配置交换机时,请确保交换机所属的可用区的 ECS 处于可用状态。

image.png

二、创建安全组

您已经创建了专有网络 VPC 和交换机。接下来您需要创建 1 个安全组,用于限制该专有网络 VPC 下交换机的网络流入和流出。

  1. 登录ECS 管理控制台[2]。
  2. 在左侧导航栏,选择网络与安全>安全组。
  3. 在顶部菜单栏,选择华东 1(杭州)地域。
  4. 在安全组页面,单击创建安全组。
  5. 在创建安全组页面,创建 1 个安全组。


image.png

三、创建 GPU 云服务器

您已经创建好专有网络 VPC 和交换机等资源。接下来您需要创建 1 个 GPU 云服务器实例,用于部署应用程序。

  1. ECS 管理控制台[2]。
  2. 在左侧导航栏,选择实例与镜像 > 实例。
  3. 在顶部菜单栏,选择华东 1(杭州)地域。
  4. 在实例页面,单击创建实例。
  5. 下表中未说明的参数,在本方案中可使用默认值。


image.png

image.png

image.png


应用部署


接下来我们使用 Ollama 框架来部署 DeepSeek-R1 模型,使用 Open WebUI 调用模型服务。

一、登录服务器

  1. 登录 ECS管理控制台[2]。
  2. 在左侧导航栏,选择实例与镜像>实例。
  3. 在顶部菜单栏,选择华东1(杭州)地域。
  4. 部署示例应用程序。
  1. 在实例页面,找到前面步骤中创建的 ECS 实例,查看IP 地址列,记录公网 IP ,然后在其右侧操作列,单击远程连接。
  2. 在远程连接对话框的通过 Workbench 远程连接区域,单击立即登录,然后根据页面提示登录。
  1. 输入密码并点击确定按钮,通过 Workbench 远程连接至 ECS 控制台。
  2. 如图所示 GPU 驱动尚未完成安装,请等待 10-20 分钟,安装完成后实例将自动重启。


image.png

二、部署 Ollama

  1. 执行以下命令部署 Ollama 模型服务。


curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/install-script/deepseek-r1-for-platforms/ollama_install.sh|sh

2. 如下图所示,说明 Ollama 部署完成。

image.png

  1. 执行以下命令拉取模型。
ollama pull deepseek-r1:7b

image.png

  1. 执行以下命令,运行模型,运行成功后,在键盘上敲击两次回车键。
ollama run deepseek-r1:7b &

三、部署 Open WebUI

  1. 执行以下命令部署 Open WebUI 应用。
curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/install-script/deepseek-r1-for-platforms/install.sh|sh

2. 部署完成后,可以看到控制台中输出Installation completed

应用体验


一、访问示例应用

  1. 在浏览器中访问http://:8080,访问 Open WebUI。

说明

请将  更改为应用部署步骤记录的公网 IP。

image.png


二、与模型对话

  1. 在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。

image.png

三、使用 Chatbox 客户端配置 Ollama API 进行对话(可选)

  1. 访问 Chatbox 下载地址[5]下载并安装客户端,本方案以 macOS 为例。


image.png

  1. 运行并配置 Ollama API ,单击设置。

image.png

  1. 下拉选择模型提供方Ollama API,填写 API 域名 http://:11434,下拉选择模型deepseek-r1:7b,最后单击保存。

image.png

  1. 在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。

image.png


完成及清理


清理资源

  1. 释放 1 台 GPU 云服务器实例:登录ECS 控制台[2],在实例页面,找到目标实例,然后在操作列选择 image.png >释放,根据界面提示释放实例。
  2. 删除 1 个安全组:登录ECS 控制台[2],在安全组页面,选择目标安全组,然后在操作列单击删除。
  3. 释放 1 台交换机:登录专有网络控制台[4],在交换机页面,找到目标交换机,然后在操作列单击删除,按照界面提示释放实例。
  4. 释放 1 个专有网络 VPC:登录专有网络控制台[1],在专有网络页面,找到目标 VPC,然后在操作列单击删除,按照界面提示释放实例。


参考链接:

[1]https://vpcnext.console.aliyun.com/vpc/cn-hangzhou/vpcs

[2]https://ecs.console.aliyun.com/

[3]https://chatboxai.app/zh#download

[4]https://vpcnext.console.aliyun.com/vpc/cn-hangzhou/switches





来源  |  阿里云开发者公众号

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
5月前
|
Kubernetes 安全 异构计算
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
最近一年我都在依赖大模型辅助工作,比如 DeepSeek、豆包、Qwen等等。线上大模型确实方便,敲几个字就能生成文案、写代码、做表格,极大提高了效率。但对于企业来说:公司内部数据敏感、使用外部大模型会有数据泄露的风险。
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
|
5月前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
210 0
|
4月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
1280 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
6月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
1034 8
|
7月前
|
人工智能 负载均衡 算法
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
EPLB 是 DeepSeek 推出的专家并行负载均衡器,通过冗余专家策略和负载均衡算法,优化大规模模型训练中的 GPU 资源利用率和训练效率。
308 1
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
|
7月前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
160 3
|
7月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
6月前
|
人工智能 测试技术 数据中心
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
|
7月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
109 0
|
7月前
|
存储 Kubernetes 对象存储
部署 DeepSeek 但 GPU 不足,ACK One 注册集群助力解决 IDC GPU 资源不足
部署 DeepSeek 但 GPU 不足,ACK One 注册集群助力解决 IDC GPU 资源不足