想在自己的电脑上免费运行 Llama 3、Mistral、Gemma、Qwen 等开源大模型?
不想依赖 API、不担心隐私泄露、还能离线使用?
Ollama 就是你的最佳选择!
Ollama 是一个专为本地运行大语言模型(LLM)设计的开源工具,支持 macOS、Linux 和 Windows(WSL),一键拉取、一键运行,极大简化了本地部署流程。
今天,我们就从零开始,手把手教你用 Ollama 在本地部署并调用大模型!
一、什么是 Ollama?
✅ 开源免费,本地运行,数据不出内网;
✅ 支持主流开源模型:Llama 3、Mistral、Phi-3、Gemma、Qwen、Yi 等;
✅ 自动管理模型下载、量化、推理;
✅ 提供命令行交互 + REST API + Web UI(通过第三方);
✅ 支持 CPU 推理(无需 GPU,但有 GPU 会更快)。
二、安装 Ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
macOS(推荐 M1/M2/M3 芯片)
brew install ollama
三、运行第一个模型:Llama 3
Ollama 内置模型库,只需一条命令即可下载并运行!
ollama run llama3
首次运行会自动下载 Llama 3 8B(约 4.7GB,量化版),下载完成后进入交互模式:
>>> 你好!
你好!有什么我可以帮你的吗?
>>> 用 Python 写一个快速排序
...
✅ 支持中文、代码生成、逻辑推理等任务!
四、常用命令速查
| 命令 | 说明 |
|---|---|
| ollama run | 运行指定模型(如 llama3, mistral, qwen:7b) |
| ollama list | 查看已下载的模型 |
| ollama pull | 手动下载模型(不立即运行) |
| ollama rm | 删除模型 |
| ollama ps | 看正在运行的模型进程 |
五、通过 API 调用模型(供程序集成)
Ollama 启动后会自动开启 本地 REST API(默认 http://localhost:11434)。
示例:用 Python 调用 Llama 3
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={
"model": "llama3",
"prompt": "用一句话解释量子计算",
"stream": False
}
)
print(response.json()['response'])
输出:
量子计算利用量子比特的叠加和纠缠特性,实现远超经典计算机的并行计算能力。
API 说明
端点:POST /api/generate
参数:
model: 模型名称
prompt: 输入提示
stream: 是否流式输出(False 返回完整结果)
返回:JSON 格式,response 字段为模型输出
结语
Ollama 让大模型本地化变得前所未有的简单。无论你是开发者、研究员,还是 AI 爱好者,都可以在自己的电脑上:
- 私有化部署大模型;
- 构建本地 AI 应用;
- 学习 LLM 原理;
- 保护数据隐私。