使用Ollama英特尔优化版在英特尔显卡上部署本地大模型-开发者社区-阿里云

英特尔显卡+魔搭社区，一行命令快速部署本地大模型

2025-02-28 3128

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 英特尔显卡+魔搭社区，一行命令快速部署本地大模型

00前言

近期，Intel和魔搭合作，在魔搭社区上线了Ollama 英特尔优化版镜像，该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版，开发者可在英特尔GPU (如搭载集成显卡的个人电脑，Arc 独立显卡等) 上直接免安装运行 Ollama。

DeepSeek-R1作为开源领域的重磅模型，以其卓越的推理能⼒在各类任务中脱颖⽽出，吸引了⼴泛关注。本文将⼿把⼿教您如何在纯CPU环境下，以低成本部署大模型。

Ollama 英特尔优化版在如下设备上进行了验证:

Intel Core Ultra processors
Intel Core 11th - 14th gen processors
Intel Arc A-Series GPU
Intel Arc B-Series GPU

01Windows 使用指南

系统环境准备

检查 GPU 驱动程序版本，并根据需要进行更新：

对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU，推荐将GPU 驱动版本升级到最新版本
对于其他的 Intel 核显和独显，推荐使用 GPU 驱动版本 32.0.101.6078

步骤 1：下载和解压

下载链接：

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-win.zip

下载 Ollama 英特尔 Windows 优化版。

然后，将 zip 文件解压到一个文件夹中。

步骤 2：启动 Ollama Serve

根据如下步骤启动 Ollama serve:

打开命令提示符（cmd），并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹
在命令提示符中运行 "start-ollama.bat" 即可启动 Ollama Serve。随后会弹出一个窗口，如下所示：

步骤 3：运行 Ollama

接下来通过在相同的命令提示符（非弹出的窗口）中运行 ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型），即可在 Intel GPUs 上使用 Ollama 运行 LLMs：

02Linux 使用指南

系统环境准备

检查GPU 驱动程序版本，并根据需要进行更新；推荐用户按照消费级显卡驱动安装指南来安装 GPU 驱动。

步骤 1：下载和解压

下载链接：

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-ubuntu.tgz

然后，开启一个终端，输入如下命令将 tgz 文件解压到一个文件夹中。

tar -xvf [Downloaded tgz file path]

步骤 2：启动 Ollama Serve

进入解压后的文件夹，执行./start-ollama.sh启动 Ollama Serve：

cd PATH/TO/EXTRACTED/FOLDER./start-ollama.sh

步骤 3：运行 Ollama

在 Intel GPUs 上使用 Ollama 运行大语言模型，如下所示：

打开另外一个终端，并输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
在终端中运行 ./ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型）

03模型下载源

Ollama 英特尔优化版默认从 ModelScope 下载模型。通过在运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCE 为 modelscope 或 ollama，你可以切换模型的下载源。

使用 Ollama 英特尔优化版默认从 ModelScope 下载的模型，在执行 ollama list 时仍会显示实际的模型 ID，例如：

NAME                                                             ID              SIZE      MODIFIEDmodelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago

除了 ollama run 和 ollama pull，其他操作中模型应通过其实际 ID 进行识别，例如：ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M

在 Ollama 中增加上下文长度

默认情况下，Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说，模型最多能 “记住” 2048 个 token 的上下文。

要增加上下文长度，可以在启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX，步骤如下（如果 Ollama serve 已经在运行，请确保先将其停止）：

对于 Windows 用户：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
在命令提示符中将 IPEX_LLM_NUM_CTX 设置为所需长度，例如：set IPEX_LLM_NUM_CTX=16384
通过运行 start-ollama.bat 启动 Ollama serve

对于 Linux 用户：

在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
在终端中将 IPEX_LLM_NUM_CTX 设置为所需长度，例如：export IPEX_LLM_NUM_CTX=16384
通过运行 ./start-ollama.sh 启动 Ollama serve

TIP

IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx。

在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

如果你的机器上有多块 GPU，Ollama 默认会在所有 GPU 上运行。

你可以通过在启动 Ollama serve 之前设置环境变量 ONEAPI_DEVICE_SELECTOR 来指定在特定的 Intel GPU 上运行 Ollama，步骤如下（如果 Ollama serve 已经在运行，请确保先将其停止）：

确认多块 GPU 对应的 id (例如0，1等)。你可以通过在加载任何模型时查看 Ollama serve 的日志来找到它们，例如

对于 Windows 用户：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
在命令提示符中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU，例如 set ONEAPI_DEVICE_SELECTOR=level_zero:0，其中0应该替换成你期望的 GPU id
通过运行 start-ollama.bat 启动 Ollama serve

对于 Linux 用户：

在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
在终端中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU，例如 export ONEAPI_DEVICE_SELECTOR=level_zero:0，其中0应该替换成你期望的 GPU id
通过运行 ./start-ollama.sh 启动 Ollama serve

Ollama v0.5.4 之后新增模型支持

当前的 Ollama 英特尔优化版基于 Ollama v0.5.4；此外，以下新模型也已在 Ollama 英特尔优化版中得到支持：

模型	下载（Windows）	下载（Linux）
DeepSeek-R1	ollama run deepseek-r1	./ollama run deepseek-r1
Openthinker	ollama run openthinker	./ollama run openthinker
DeepScaleR	ollama run deepscaler	./ollama run deepscaler
Phi-4	ollama run phi4	./ollama run phi4
Dolphin 3.0	ollama run dolphin3	./ollama run dolphin3
Smallthinker	ollama run smallthinker	./ollama run smallthinker
Granite3.1-Dense	ollama run granite3-dense	./ollama run granite3-dense
Granite3.1-Moe-3B	ollama run granite3-moe	./ollama run granite3-moe

英特尔显卡+魔搭社区，一行命令快速部署本地大模型

00前言

01Windows 使用指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

02Linux 使用指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

03模型下载源

在 Ollama 中增加上下文长度

在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

Ollama v0.5.4 之后新增模型支持

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

英特尔显卡+魔搭社区，一行命令快速部署本地大模型

00前言

01Windows 使用指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

02Linux 使用指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

03模型下载源

在 Ollama 中增加上下文长度

在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

Ollama v0.5.4 之后新增模型支持

热门文章

最新文章

相关课程

相关电子书

相关实验场景