本地离线大模型实战：Ollama + Llama 3.1 8B 全流程部署（适配VSCode Continue代码助手）-阿里云开发者社区

本地离线大模型实战：Ollama + Llama 3.1 8B 全流程部署（适配VSCode Continue代码助手）

2026-06-13 76

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是Windows本地部署Llama3.1 8B的保姆级教程：零成本、全离线、16G内存流畅运行，支持VSCode Continue插件实现AI编程助手。详解Ollama安装路径优化、模型存储迁移、Agent模式配置及高频踩坑解决方案，兼顾隐私与效率。（239字）

前言

之前一直依赖云端AI写代码、整理文案，但一是敏感代码不敢上传公网，二是网络波动经常卡顿。折腾一周，把Llama3.1 8B部署到普通Windows台式机，搭配Ollama一键调度，还打通了VSCode Continue插件实现本地AI编码助手。全程免费、完全离线、16G内存就能流畅跑，8G内存降负载也能凑合用，把踩坑全过程整理成保姆级教程。

一、环境前置说明

硬件门槛

最低：8G内存（仅聊天、短句问答，速度偏慢）
推荐：16G及以上内存（完整支持代码生成、Agent工具调用）
显卡：有无N卡都行，有显卡会自动加速，纯CPU也可运行

系统

Windows 10/11、macOS、Linux通用，本文以Windows为主操作演示

二、Ollama安装（改安装盘+模型存储盘，拒绝塞满C盘）

1. 本体安装到D盘

官网下载安装包；
不要双击直接安装，打开下载文件夹，地址栏输入cmd回车唤起命令行
执行安装命令，指定D盘安装路径
```
OllamaSetup.exe /DIR=D:\Ollama
```
等待进度走完，程序本体就安装在D盘，不占用C盘空间。

2. 模型文件迁移至D盘（核心，模型体积动辄5GB+）

D盘新建文件夹 D:\ollama_models
系统环境变量配置：
- Win+R输入sysdm.cpl → 高级 → 环境变量
- 系统变量→新建：变量名OLLAMA_MODELS，变量值D:\ollama_models
生效配置：重启电脑，或终端执行服务重启指令
```
net stop ollama
net start ollama
```
后续所有下载的模型都会自动存到D盘目录。

3. 拉取Llama3.1 8B模型

打开任意终端，执行拉取指令，自动下载量化好的8B基础模型

ollama pull llama3.1:8b

下载完成后验证模型列表

ollama list

输出能看到llama3.1:8b即代表下载成功。

4. 基础终端对话测试

直接运行模型开启对话，断网也能正常问答

ollama run llama3.1:8b

输入问题即可交互，输入/bye退出对话窗口。

在这里插入图片描述

三、VSCode Continue插件对接本地模型（踩坑重点）

很多人装完插件识别不了模型、Agent模式黄标报错，这里把实测可用的配置方案写死。

1. 基础安装

VSCode扩展面板搜索Continue，安装插件后重启编辑器
先后台启动Ollama服务（必须常驻窗口，关闭则连接失效）
```
ollama serve
```

2. 配置文件关键：新版Continue仅识别config.yaml

打开文件资源管理器，地址栏输入路径直达配置目录
```
%USERPROFILE%\.continue\
```
删除残留config.json文件，只保留/新建config.yaml
粘贴完整兼容配置（适配Llama3.1工具调用、Agent模式）
```yaml
name: ollama-llama31
version: 0.0.1
schema: v1

models:

name: Llama 3.1 8B (Ollama)
provider: ollama
model: llama3.1:8b
apiBase: http://localhost:11434
roles:
- chat
- autocomplete
  capabilities:
- tool_use
  toolCallFormat: llama3
  contextWindow: 8192
  maxTokens: 2048

tabAutocompleteModel:
name: Llama 3.1 8B (Ollama)
provider: ollama
model: llama3.1:8b
apiBase: http://localhost:11434

selectedModel: Llama 3.1 8B (Ollama)

systemMessage: |
你是编程助手，必须优先使用工具调用完成任务，例如查看文件、搜索代码、列出目录。请用中文回答。

experimental:
ollamaCompatibleTools: true

> 格式硬性要求：全部缩进使用2个空格，禁止Tab制表符；冒号后方必须带空格。

### 3. 重启验证
1. 保存yaml文件，完全关闭VSCode再重新打开
2. `Ctrl+L`唤起Continue侧边栏，底部模型下拉框选中`Llama 3.1 8B (Ollama)`
3. 切换模式：Chat普通对话、Agent智能工具模式

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/4b025f98f83e4292b3a97da2b44586ea.png)


## 四、高频踩坑问题解决方案
### 问题1：Agent模式出现黄色感叹号
1. 核心原因：插件判定模型未开启工具调用能力
2. 排查步骤
   - 第一步：cmd终端执行curl测试模型原生工具支持
```cmd
curl http://localhost:11434/api/chat -d "{\"model\":\"llama3.1:8b\",\"messages\":[{\"role\":\"user\",\"content\":\"列出当前目录的文件\"}],\"stream\":false,\"tools\":[{\"type\":\"function\",\"function\":{\"name\":\"listDir\",\"description\":\"列出目录文件\",\"parameters\":{\"type\":\"object\",\"properties\":{\"dir\":{\"type\":\"string\"}}}}}]}"

返回JSON包含tool_calls字段=模型本身支持；无则重装模型

ollama rm llama3.1:8b && ollama pull llama3.1:8b

第二步：核对yaml配置，确认存在capabilities: [- tool_use]、toolCallFormat: llama3、experimental兼容开关
第三步：彻底卸载Continue插件清除缓存，重装后重新加载配置

问题2：VSCode识别不到配置里的模型

检查yaml模型节点使用name字段（旧版title字段已失效）
必须配置roles: [chat,autocomplete]，缺失会直接隐藏模型选项
确认无残留config.json，插件优先读取json会覆盖yaml配置

问题3：C盘空间被模型占满

严格按照教程配置OLLAMA_MODELS环境变量迁移模型目录；已下载的模型可手动剪切.ollama/models文件夹到D盘路径，配置环境变量后重启服务即可无缝识别。

五、拓展优化与替代方案

图形化聊天界面：搭配Open WebUI，浏览器打开类ChatGPT页面管理多模型
```
docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
```
访问 http://localhost:3000 可视化对话
低配8G内存优化：替换更小体量通义千问轻量模型
```
ollama pull qwen:2b
```
工具调用稳定、内存占用更低
代码专项模型：写代码为主可拉取深度求索代码模型，代码理解能力优于原生Llama3.1 8B
```
ollama pull deepseek-coder:6.7b
```

结尾总结

Ollama把本地部署的门槛压到极低，不用复杂CUDA、PyTorch环境编译，一行命令搞定模型调度。搭配Continue插件后，完全实现本地离线AI编码，代码隐私零泄露。16G内存是体验分水岭，日常写脚本、调试代码、文档总结，Llama3.1 8B的能力完全够用，对于注重数据隐私、经常断网办公的开发者，这套组合性价比拉满。

本地离线大模型实战：Ollama + Llama 3.1 8B 全流程部署（适配VSCode Continue代码助手）

前言

一、环境前置说明

硬件门槛

系统

二、Ollama安装（改安装盘+模型存储盘，拒绝塞满C盘）

1. 本体安装到D盘

2. 模型文件迁移至D盘（核心，模型体积动辄5GB+）

3. 拉取Llama3.1 8B模型

4. 基础终端对话测试

三、VSCode Continue插件对接本地模型（踩坑重点）

1. 基础安装

2. 配置文件关键：新版Continue仅识别config.yaml

问题2：VSCode识别不到配置里的模型

问题3：C盘空间被模型占满

五、拓展优化与替代方案

结尾总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

本地离线大模型实战：Ollama + Llama 3.1 8B 全流程部署（适配VSCode Continue代码助手）

前言

一、环境前置说明

硬件门槛

系统

二、Ollama安装（改安装盘+模型存储盘，拒绝塞满C盘）

1. 本体安装到D盘

2. 模型文件迁移至D盘（核心，模型体积动辄5GB+）

3. 拉取Llama3.1 8B模型

4. 基础终端对话测试

三、VSCode Continue插件对接本地模型（踩坑重点）

1. 基础安装

2. 配置文件关键：新版Continue仅识别config.yaml

问题2：VSCode识别不到配置里的模型

问题3：C盘空间被模型占满

五、拓展优化与替代方案

结尾总结

热门文章

最新文章

相关电子书