英特尔显卡+魔搭社区,一行命令快速部署本地大模型

简介: 英特尔显卡+魔搭社区,一行命令快速部署本地大模型

00前言



近期,Intel和魔搭合作,在魔搭社区上线了Ollama 英特尔优化版镜像,该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版,开发者可在英特尔GPU (如搭载集成显卡的个人电脑,Arc 独立显卡等) 上直接免安装运行 Ollama。


DeepSeek-R1作为开源领域的重磅模型,以其卓越的推理能⼒在各类任务中脱颖⽽出,吸引了⼴泛关注。本文将⼿把⼿教您如何在纯CPU环境下,以低成本部署大模型。


Ollama 英特尔优化版在如下设备上进行了验证:


  • Intel Core Ultra processors
  • Intel Core 11th - 14th gen processors
  • Intel Arc A-Series GPU
  • Intel Arc B-Series GPU


01Windows 使用指南



系统环境准备

检查 GPU 驱动程序版本,并根据需要进行更新:

  • 对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU,推荐将GPU 驱动版本升级到最新版本
  • 对于其他的 Intel 核显和独显,推荐使用 GPU 驱动版本 32.0.101.6078


步骤 1:下载和解压

下载链接:

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-win.zip

下载 Ollama 英特尔 Windows 优化版。

然后,将 zip 文件解压到一个文件夹中。


步骤 2:启动 Ollama Serve

根据如下步骤启动 Ollama serve:

  • 打开命令提示符(cmd),并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹
  • 在命令提示符中运行 "start-ollama.bat" 即可启动 Ollama Serve。随后会弹出一个窗口,如下所示:




步骤 3:运行 Ollama

接下来通过在相同的命令提示符(非弹出的窗口)中运行 ollama run deepseek-r1:7b(可以将当前模型替换为你需要的模型),即可在 Intel GPUs 上使用 Ollama 运行 LLMs:


02Linux 使用指南


系统环境准备

检查GPU 驱动程序版本,并根据需要进行更新;推荐用户按照消费级显卡驱动安装指南来安装 GPU 驱动。


步骤 1:下载和解压

下载链接:

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-ubuntu.tgz

然后,开启一个终端,输入如下命令将 tgz 文件解压到一个文件夹中。


tar -xvf [Downloaded tgz file path]


步骤 2:启动 Ollama Serve

进入解压后的文件夹,执行./start-ollama.sh启动 Ollama Serve:


cd PATH/TO/EXTRACTED/FOLDER./start-ollama.sh


步骤 3:运行 Ollama

在 Intel GPUs 上使用 Ollama 运行大语言模型,如下所示:

  • 打开另外一个终端,并输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
  • 在终端中运行 ./ollama run deepseek-r1:7b(可以将当前模型替换为你需要的模型)


03模型下载源


Ollama 英特尔优化版默认从 ModelScope 下载模型。通过在运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCE 为 modelscope 或 ollama,你可以切换模型的下载源。


使用 Ollama 英特尔优化版默认从 ModelScope 下载的模型,在执行 ollama list 时仍会显示实际的模型 ID,例如:

NAME                                                             ID              SIZE      MODIFIEDmodelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago


除了 ollama run 和 ollama pull,其他操作中模型应通过其实际 ID 进行识别,例如:ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M


在 Ollama 中增加上下文长度

默认情况下,Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说,模型最多能 “记住” 2048 个 token 的上下文。


要增加上下文长度,可以在启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):


  • 对于 Windows 用户:
  • 打开命令提示符(cmd),并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
  • 在命令提示符中将 IPEX_LLM_NUM_CTX 设置为所需长度,例如:set IPEX_LLM_NUM_CTX=16384
  • 通过运行 start-ollama.bat 启动 Ollama serve


  • 对于 Linux 用户:
  • 在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
  • 在终端中将 IPEX_LLM_NUM_CTX 设置为所需长度,例如:export IPEX_LLM_NUM_CTX=16384
  • 通过运行 ./start-ollama.sh 启动 Ollama serve

TIP

IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx。


在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

如果你的机器上有多块 GPU,Ollama 默认会在所有 GPU 上运行。

你可以通过在启动 Ollama serve 之前设置环境变量 ONEAPI_DEVICE_SELECTOR 来指定在特定的 Intel GPU 上运行 Ollama,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):

  • 确认多块 GPU 对应的 id (例如0,1等)。你可以通过在加载任何模型时查看 Ollama serve 的日志来找到它们,例如



  • 对于 Windows 用户:
  • 打开命令提示符(cmd),并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
  • 在命令提示符中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU,例如 set ONEAPI_DEVICE_SELECTOR=level_zero:0,其中0应该替换成你期望的 GPU id
  • 通过运行 start-ollama.bat 启动 Ollama serve



  • 对于 Linux 用户:
  • 在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
  • 在终端中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU,例如 export ONEAPI_DEVICE_SELECTOR=level_zero:0,其中0应该替换成你期望的 GPU id
  • 通过运行 ./start-ollama.sh 启动 Ollama serve


Ollama v0.5.4 之后新增模型支持

当前的 Ollama 英特尔优化版基于 Ollama v0.5.4;此外,以下新模型也已在 Ollama 英特尔优化版中得到支持:


模型

下载(Windows)

下载(Linux)

DeepSeek-R1

ollama run deepseek-r1

./ollama run deepseek-r1

Openthinker

ollama run openthinker

./ollama run openthinker

DeepScaleR

ollama run deepscaler

./ollama run deepscaler

Phi-4

ollama run phi4

./ollama run phi4

Dolphin 3.0

ollama run dolphin3

./ollama run dolphin3

Smallthinker

ollama run smallthinker

./ollama run smallthinker

Granite3.1-Dense

ollama run granite3-dense

./ollama run granite3-dense

Granite3.1-Moe-3B

ollama run granite3-moe

./ollama run granite3-moe


相关文章
|
9月前
|
人工智能 并行计算 持续交付
如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署
大幅降低了用户开发和应用大模型的技术门槛。
|
9月前
|
人工智能 弹性计算 自然语言处理
从0到1部署大模型,计算巢模型市场让小白秒变专家
阿里云计算巢模型市场依托阿里云弹性计算资源,支持私有化部署,集成通义千问、通义万象、Stable Diffusion等领先AI模型,覆盖大语言模型、文生图、多模态、文生视频等场景。模型部署在用户云账号下,30分钟极速上线,保障数据安全与权限自主控制,适用于企业级私有部署及快速原型验证场景。
|
9月前
|
数据采集 机器学习/深度学习 搜索推荐
利用通义大模型构建个性化推荐系统——从数据预处理到实时API部署
本文详细介绍了基于通义大模型构建个性化推荐系统的全流程,涵盖数据预处理、模型微调、实时部署及效果优化。通过采用Qwen-72B结合LoRA技术,实现电商场景下CTR提升58%,GMV增长12.7%。文章分析了特征工程、多任务学习和性能调优的关键步骤,并探讨内存优化与蒸馏实践。最后总结了大模型在推荐系统中的适用场景与局限性,提出未来向MoE架构和因果推断方向演进的建议。
1426 11
|
9月前
|
存储 文字识别 自然语言处理
通义大模型在文档自动化处理中的高效部署指南(OCR集成与批量处理优化)
本文深入探讨了通义大模型在文档自动化处理中的应用,重点解决传统OCR识别精度低、效率瓶颈等问题。通过多模态编码与跨模态融合技术,通义大模型实现了高精度的文本检测与版面分析。文章详细介绍了OCR集成流程、批量处理优化策略及实战案例,展示了动态批处理和分布式架构带来的性能提升。实验结果表明,优化后系统处理速度可达210页/分钟,准确率达96.8%,单文档延迟降至0.3秒,为文档处理领域提供了高效解决方案。
911 1
|
5月前
|
监控 安全 数据安全/隐私保护
55_大模型部署:从云端到边缘的全场景实践
随着大型语言模型(LLM)技术的飞速发展,从实验室走向产业化应用已成为必然趋势。2025年,大模型部署不再局限于传统的云端集中式架构,而是向云端-边缘协同的分布式部署模式演进。这种转变不仅解决了纯云端部署在延迟、隐私和成本方面的痛点,还为大模型在各行业的广泛应用开辟了新的可能性。本文将深入剖析大模型部署的核心技术、架构设计、工程实践及最新进展,为企业和开发者提供从云端到边缘的全场景部署指南。
|
6月前
|
人工智能 云栖大会
2025云栖大会大模型应用开发与部署|门票申领
2025云栖大会大模型应用开发与部署门票申领
472 9
|
5月前
|
缓存 API 调度
70_大模型服务部署技术对比:从框架到推理引擎
在2025年的大模型生态中,高效的服务部署技术已成为连接模型能力与实际应用的关键桥梁。随着大模型参数规模的不断扩大和应用场景的日益复杂,如何在有限的硬件资源下实现高性能、低延迟的推理服务,成为了所有大模型应用开发者面临的核心挑战。
|
5月前
|
人工智能 监控 安全
06_LLM安全与伦理:部署大模型的防护指南
随着大型语言模型(LLM)在各行业的广泛应用,其安全风险和伦理问题日益凸显。2025年,全球LLM市场规模已超过6400亿美元,年复合增长率达30.4%,但与之相伴的是安全威胁的复杂化和伦理挑战的多元化

热门文章

最新文章