普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

简介: DeepSeek部署教程手把手教学。

9.png

背景介绍

DeepSeek-R1

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek-R1-Distill-Qwen 则是通过 DeepSeek-R1 的输出,基于 Qwen 大语言模型,经过模型蒸馏的小模型,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。 

龙蜥操作系统

龙蜥操作系统 Anolis OS 8 是 OpenAnolis 龙蜥社区发行的开源 Linux 发行版,支持多计算架构,提供稳定、高性能、安全、可靠的操作系统支持。Anolis OS 8 中通过引入龙蜥生态软件仓库(EPAO),实现一键安装部署 AI 开发环境,解决了 AI 组件之间繁琐的依赖关系,加速 AI 应用的开发、部署流程。

EPAO 仓库为开发者提供了一键安装主流 NVIDIA GPU 驱动和 CUDA 加速库的功能,简化了驱动版本匹配和手动安装的繁琐过程。仓库中的组件均经过兼容性测试,确保一键安装时无需修改系统依赖项,从而提升了使用过程中的稳定性。

AC2

Alibaba Cloud AI Containers(简称 AC2)是阿里云官方推出的一系列 AI 容器镜像的合集。通过内置不同的硬件加速库、AI 运行时、AI 框架等满足用户不同场景的部署使用诉求,并通过与阿里云基础设施(ECS、ACK、ACS)深度优化,提升用户在阿里云上的 AI 性能和体验。

模型部署

前置准备

部署前需要准备

  1. NVIDIA GPU 实例(显存不小于 16G):示例使用阿里云 ecs.gn7i-c8g1.2xlarge 规格实例
  2. 运行 Anolis OS 8 系统
  3. 不小于 60G 存储空间
  4. 公网访问能力,并开放 8000 端口

准备容器运行环境

1. 在 Anolis OS 8 上使用 EPAO 仓库安装 NVIDIA 驱动以及 CUDA 驱动。

dnf install -y anolis-epao-release
dnf install -y kernel-devel-$(uname -r) nvidia-driver{,-cuda}

2. 在 Anolis OS 8 上安装 Docker 运行环境,并安装 NVIDIA Container Toolkit 来支持 GPU 容器。

dnf config-manager --add-repo=https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
dnf install -y docker-ce nvidia-container-toolkit
systemctl restart docker

3. 安装运行依赖系统组件。

dnf install -y curl jq git{,-lfs}
git lfs install

4. 下载模型文件,下载耗时较长(约 30 分钟),且阻塞终端输入。模型下载为当前目录下的 DeepSeek-R1-Distill-Qwen-7B。

git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B.git

运行 DeepSeek 容器

1. 从 AC2 拉取容器镜像,并运行 DeepSeek 部署容器。镜像会检查「MODEL_DIR」环境变量设置的模型目录下是否存在模型文件,并运行自动启动 vLLM 推理服务,以 OpenAI API 接口透出服务。

docker run -d -p 8000:8000 --gpus all \
  -v ./DeepSeek-R1-Distill-Qwen-7B:/models/DeepSeek-R1-Distill-Qwen-7B \
  -e MODEL_DIR=/models/DeepSeek-R1-Distill-Qwen-7B \
  ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen2:7b-pytorch2.4.0-cuda12.1.1-py310-alinux3.2104

2. 容器运行后可以使用 docker logs  来查看容器运行日志,正常运行后日志输入如下所示。API 服务已在本地 8000 端口运行。

INFO 02-11 01:16:33 launcher.py:19] Available routes are:
INFO 02-11 01:16:33 launcher.py:27] Route: /openapi.json, Methods: GET, HEAD
INFO 02-11 01:16:33 launcher.py:27] Route: /docs, Methods: GET, HEAD
INFO 02-11 01:16:33 launcher.py:27] Route: /docs/oauth2-redirect, Methods: GET, HEAD
INFO 02-11 01:16:33 launcher.py:27] Route: /redoc, Methods: GET, HEAD
INFO 02-11 01:16:33 launcher.py:27] Route: /health, Methods: GET
INFO 02-11 01:16:33 launcher.py:27] Route: /tokenize, Methods: POST
INFO 02-11 01:16:33 launcher.py:27] Route: /detokenize, Methods: POST
INFO 02-11 01:16:33 launcher.py:27] Route: /v1/models, Methods: GET
INFO 02-11 01:16:33 launcher.py:27] Route: /version, Methods: GET
INFO 02-11 01:16:33 launcher.py:27] Route: /v1/chat/completions, Methods: POST
INFO 02-11 01:16:33 launcher.py:27] Route: /v1/completions, Methods: POST
INFO 02-11 01:16:33 launcher.py:27] Route: /v1/embeddings, Methods: POST
INFO:     Started server process [10]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on socket ('0.0.0.0', 8000) (Press CTRL+C to quit)
INFO 02-11 01:16:43 metrics.py:345] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
INFO 02-11 01:16:53 metrics.py:345] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.

3. 通过 cURL 实用程序可以测试模型推理效果,例如提问「9.9和9.11哪个大?」。

curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "/models/DeepSeek-R1-Distill-Qwen-7B", 
       "messages": [{"role": "user", "content": "9.9和9.11哪个大?"}], 
       "max_tokens": 1024, "temperature":"0.9" 
      }' | \
  jq '.choices[0].message.content' | \
  xargs echo -e

4. 模型输出如下,由于 DeepSeek-R1 为推理模型,模型输出大致分为思考部分以及回答部分。

总结

DeepSeek-R1 在数学推理、编程竞赛等多个任务上表现出色,不仅超过了其他闭源模型,而且在某些任务上接近或超越了 OpenAI-o1 系列模型。一经发布,火爆海内外。本文介绍了如何在 Anolis OS 8 上使用 AC2 容器部署生产可用的 DeepSeek 推理服务


通过 Anolis OS 8 所提供的原生 AI 能力,结合 AC2 容器化 AI 运行环境的预配置,用户得以免去自行部署 CUDA 驱动及安装 PyTorch/vLLM 等繁琐步骤,极大地简化了部署流程,有效规避了因组件与驱动版本不兼容所引发的潜在问题,更专注于核心业务逻辑,而无需被底层技术细节所困扰。这一创新组合显著降低了在生产环境中部署人工智能技术的门槛,真正使得 AI 技术普惠广大用户。


我们也设立了动手实践环节,欢迎大家沉浸式体验,链接见下:

https://developer.aliyun.com/adc/scenario/311001730508

—— 完 ——

相关文章
|
4月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
1287 6
|
7月前
|
人工智能 数据可视化 安全
【保姆级教程】Dify+DeepSeek+MCP三件套:零门槛打造AI应用流水线,手把手实战教学!
本教程手把手教你用Dify+DeepSeek+MCP三件套零门槛搭建AI应用流水线:Dify提供可视化工作流编排,DeepSeek贡献128K长文本国产最强模型,MCP实现弹性部署。这套组合兼具低代码开发、高性能推理和灵活运维三大优势,助你快速落地企业级AI解决方案。
|
9月前
|
人工智能 搜索推荐 API
🚀 2小时极速开发!基于DeepSeek+智体OS的AI社交「头榜」震撼上线!
基于DeepSeek大模型与DTNS协议的革命性AI社交平台「头榜」震撼上线!仅需2小时极速开发,即可构建完整社交功能模块。平台具备智能社交网络、AI Agent生态、Prompt市场、AIGC创作等六大核心优势,支持低代码部署与个性化定制。开发者可快速接入DeepSeek API,体验去中心化架构与数据自主权。官网:[dtns.top](https://dtns.top),立即开启你的AI社交帝国!#AI社交 #DeepSeek #DTNS协议
303 4
|
5月前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
2523 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
9月前
|
人工智能 Java API
Spring AI 实战|Spring AI入门之DeepSeek调用
本文介绍了Spring AI框架如何帮助Java开发者轻松集成和使用大模型API。文章从Spring AI的初探开始,探讨了其核心能力及应用场景,包括手动与自动发起请求、流式响应实现打字机效果,以及兼容不同AI服务(如DeepSeek、通义千问)的方法。同时,还详细讲解了如何在生产环境中添加监控以优化性能和成本管理。通过Spring AI,开发者可以简化大模型调用流程,降低复杂度,为企业智能应用开发提供强大支持。最后,文章展望了Spring AI在未来AI时代的重要作用,鼓励开发者积极拥抱这一技术变革。
3210 71
Spring AI 实战|Spring AI入门之DeepSeek调用
|
6月前
|
人工智能 自然语言处理 Java
从青铜到王者,DeepSeek+Spring AI 搭建 RAG 知识库
本文介绍了基于RAG(检索增强生成)技术构建知识库的原理与实现方法。RAG通过结合检索与生成模型,提升大语言模型在问答任务中的准确性与相关性,有效缓解“幻觉”问题。文章还详细讲解了如何利用DeepSeek与SpringAI搭建高效RAG系统,并提供了完整的Java代码示例,帮助开发者快速实现文档处理、向量存储与智能问答功能。适用于智能客服、内容生成、辅助决策等多个场景。
1634 2
|
6月前
|
人工智能 安全 中间件
朗空量子与 Anolis OS 完成适配,龙蜥获得抗量子安全能力
朗空量子加入龙蜥社区,一直在操作系统内核级密码模块升级、提供全栈安全支持、分布式操作系统的后量子迁移等方面与龙蜥保持合作。
|
5月前
|
人工智能 安全
用DeepSeek当工作伙伴:解决文案卡壳、问题拆解,让AI帮你省时间
本文介绍了如何利用DeepSeek提升工作效率。重点分享了5个高频工作场景的应用:1)快速处理文档提炼;2)突破创意卡壳;3)拆解复杂问题;4)快速学习专业知识;5)优化商务表达。同时提供了3个实用技巧:整理实际信息、优化提示词、学会追问补充。最后强调DeepSeek的核心价值在于解放精力,让用户专注于更具创造性和判断力的工作。通过合理使用,可显著提升工作效率和思维质量。
202 0

热门文章

最新文章

推荐镜像

更多