用户实操:如何以龙蜥操作系统为底座在 CPU 上运行 DeepSeek-R1

简介: 介绍如何在 CPU 上使用 llama.cpp 推理 671B 版本的 DeepSeek R1,以及实际效果。

编者按:DeepSeek 一经发布,火爆海内外。龙蜥操作系统 Anolis OS 8 凭借其原生 AI 能力,实现了 DeepSeek 的本地化部署,显著降低了在生产环境中部署人工智能技术的门槛,真正使得 AI 技术普惠广大用户。


以下文章转载自数穹探索,介绍了如何在 CPU 上使用 llama.cpp 推理 671B 版本的 DeepSeek R1,以及实际效果。


1.硬件配置和环境

CPU

内存

硬盘

操作系统

单路AMD EPYC 9655 96 核

DDR5-5600 12*96G

大普微 H5100 7.68T

Anolis OS release 8.8


这台服务器主要是内存带宽比较足够,实测可以达到 400 多 GB/s 的内存带宽,对跑 DeepSeek-R1 671B 非常有帮助。


(python312) [root@localhost Linux]# ./mlc
Intel(R) Memory Latency Checker - v3.11a
Measuring idle latencies for random access (in ns)...
                Numa node
Numa node            0
       0         120.7
 
Measuring Peak Injection Memory Bandwidths for the system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using traffic with the following read-write ratios
ALL Reads        :      484293.3
3:1 Reads-Writes :      426926.2
2:1 Reads-Writes :      419594.6
1:1 Reads-Writes :      398684.9
Stream-triad like:      419383.6

2.编译 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
mkdir build
cd build
cmake ..cmake --build . --config Release

3.下载模型文件(以及量化)


下载 DeepSeek R1,速度优先选择的 Q4 量化的版本,效果优先选择 Q8 量化,CPU 推理选择 gguf 格式的模型。也可以下载官方版本后使用 llama.cpp 提供的 convert_hf_to_gguf.py 转化。


/home/github/llama.cpp/convert_hf_to_gguf.py /data/models/DeepSeek-R1/


为了下载的模型小一点,直接下载了量化好的版本,否则由于网速的问题,下载实在太慢,完整的版本有 642G 大小,我自己下载了 3 天。若不能访问 huggingface,可以从 https://hf-mirror.com/deepseek-ai/DeepSeek-R1 下载完整版本。


直接下载 Q4 量化的版本,以及合并 gguf 文件。

git clone --no-checkout https://hf-mirror.com/bartowski/DeepSeek-R1-GGUF
##只下载Q4量化d的版本,网速问题,下载了20多个小时
git lfs pull --include="DeepSeek-R1-Q4_K_M/*" &
## 合并gguf文件
/home/github/llama.cpp/build/bin/llama-gguf-split --merge /data/models/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00011.gguf /data/models/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M.gguf

4.模型推理

命令行方式交互访问,默认 96 个线程,K_Cache 使用了 Q8_0 量化,以提升速度,默认 fp16。

/home/github/llama.cpp/build/bin/llama-cli  
  -m /data/models/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M.gguf 
  -n 2048 
  -p "作为一个资深的电商行业分析师,电商平台在2024年都面临了很大的增长挑战,分析一下唯品会作为电商特卖平台在2025年的机会以及如何提升用户的规模和ARPU值?" 
  -no-cnv
  --chat-template deepseek2 
  -ctk q8_0

Cli 方式的推理,96 个线程,~400GB 内存实际使用。

llama_perf_sampler_print:    sampling time =     107.81 ms /  2094 runs   (    0.05 ms per token, 19422.16 tokens per second)
llama_perf_context_print:        load time =    7545.67 ms
llama_perf_context_print: prompt eval time =    1133.01 ms /    46 tokens (   24.63 ms per token,    40.60 tokens per second)
llama_perf_context_print:        eval time =  238743.03 ms /  2047 runs   (  116.63 ms per token,     8.57 tokens per second)
llama_perf_context_print:       total time =  240134.43 ms /  2093 tokens

Web UI 方式

/home/github/llama.cpp/build/bin/llama-server 
  -m /data/models/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M.gguf 
  -n 4096 
  --host xxx.xxx.xxx.xxx 
  --port 10088  
  --chat-template deepseek2 
  --parallel 1 
  --ctx-size 16384 -ctk q8_0

默认是 1 并发,尝试过并发多余 1,会有各种问题,最终放弃。

效果简单小结

速度:~9Token/s,个人用基本没问题。

效果:Q4 的效果比官方版本略差,但是依然可用;部分题目 Q8 量化正确,Q4 会回答错误,如这个算数脑筋急转弯。

有一堆煤 第一次运走了总比例的7/13,第二次运走了8/13吨,问哪次运的煤堆更重?


更多模型在CPU上推理速度汇总


同时测试了更多模型的CPU推理的速度,INPUT 1000 Token,Output 300左右。


关于龙蜥操作系统 Anolis OS


龙蜥操作系统 Anolis OS 8 是 OpenAnolis 龙蜥社区发行的开源 Linux 发行版,支持多计算架构,提供稳定、高性能、安全、可靠的操作系统支持。Anolis OS 8 中通过引入龙蜥生态软件仓库(EPAO),实现一键安装部署 AI 开发环境,解决了 AI 组件之间繁琐的依赖关系,加速 AI 应用的开发、部署流程。


用户通过 Anolis OS 8 所提供的原生 AI 能力,结合 Alibaba Cloud AI Containers(简称 AC2)容器化 AI 运行环境的预配置,得以免去自行部署 CUDA 驱动及安装 PyTorch/vLLM 等繁琐步骤,极大地简化了部署流程,有效规避了因组件与驱动版本不兼容所引发的潜在问题,更专注于核心业务逻辑,而无需被底层技术细节所困扰。这一创新组合显著降低了在生产环境中部署人工智能技术的门槛,真正使得 AI 技术普惠广大用户。那如何在 Anolis OS 8 上使用 AC2 容器部署生产可用的 DeepSeek 推理服务,可点击这里查看详细部署教程。


—— 完 ——

目录
打赏
0
3
3
0
1169
分享
相关文章
Intel 平台新特性助力龙蜥 OS 云计算 | 龙蜥大讲堂101期
本次分享的主题是Intel平台新特性助力龙蜥OS云计算。内容涵盖英特尔第四代和第五代至强处理器的新特性,如性能提升、内置加速器等,并详细介绍TDX、SGX、AMX等技术原理及其在虚拟化环境中的支持情况,旨在帮助云用户充分利用英特尔新平台的优势。
Linux系统查看操作系统版本信息、CPU信息、模块信息
在Linux系统中,常用命令可帮助用户查看操作系统版本、CPU信息和模块信息
180 23
2025年1月9日更新Windows操作系统个人使用-禁用掉一下一些不必要的服务-关闭占用资源的进程-禁用服务提升系统运行速度-让电脑不再卡顿-优雅草央千澈-长期更新
2025年1月9日更新Windows操作系统个人使用-禁用掉一下一些不必要的服务-关闭占用资源的进程-禁用服务提升系统运行速度-让电脑不再卡顿-优雅草央千澈-长期更新
203 2
2025年1月9日更新Windows操作系统个人使用-禁用掉一下一些不必要的服务-关闭占用资源的进程-禁用服务提升系统运行速度-让电脑不再卡顿-优雅草央千澈-长期更新
英特尔携手龙蜥,共筑未来操作系统 | 2024龙蜥大会
在2024龙蜥大会中,本次分享的主题是关于英特尔公司与龙蜥社区的合作成果和未来计划。 1.Inter与龙蜥携手共建社区 2.Inter Arch SIG近期内核贡献 3.Inter:龙蜥内核历年贡献总结 4.Inter:开源技术贡献 5.Inter与龙蜥社区实践展示 6.Inter+龙蜥:未来展望
龙蜥社区落地开源生态发展合作倡议,构建开放兼容的操作系统生态
通过共同努力,三个社区基于服务器操作系统场景,在操作系统内核等关键共性技术链统一方面达成了一致。
加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。 1. 产业洞察 2. 创新实践 3. 发展建议
圆桌会议:聚焦AI时代机遇下操作系统产业的进化与重构 | 2024龙蜥大会主论坛
2024龙蜥大会主论坛聚焦AI时代的操作系统产业进化与重构。专家们围绕开源社区建设、商业化衍生、替代方案及AI应用等议题展开讨论。中国工程院陈纯院士强调开源社区的重要性,阿里云蒋江伟提出操作系统的兼容性和包容性,AMD潘晓明表示将加强国际合作,中兴通讯刘东则探讨了操作系统与AI的深度融合。会议一致认为,龙蜥操作系统应抓住AI发展机遇,构建安全可靠的生态体系,推动国产操作系统走向国际化。
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
本次分享的主题是阿里云与龙蜥携手打造智算时代最佳服务器操作系统,由阿里云技术软件部产品总监张鹏程分享。主要分为三个部分: 1.开源社区 2.操作系统 3.云 + AI
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
网站应用项目如何选择阿里云服务器实例规格+内存+CPU+带宽+操作系统等配置
对于使用阿里云服务器的搭建网站的用户来说,面对众多可选的实例规格和配置选项,我们应该如何做出最佳选择,以最大化业务效益并控制成本,成为大家比较关注的问题,如果实例、内存、CPU、带宽等配置选择不合适,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文将详细解析企业在搭建网站应用项目时选购阿里云服务器应考虑的一些因素,以供参考。

热门文章

最新文章