Ollama本地模型部署+API接口调试超详细指南

简介: 本文介绍了如何使用Ollama工具下载并部署AI大模型(如DeepSeek-R1、Llama 3.2等)。首先,访问Ollama的官方GitHub页面下载适合系统的版本并安装。接着,在终端输入`ollama`命令验证安装是否成功。然后,通过命令如`ollama run Llama3.2`下载所需的AI模型。下载完成后,可以在控制台与AI模型进行对话,或通过快捷键`control+d`结束会话。为了更方便地与AI互动,可以安装GUI或Web界面。此外,Ollama还提供了API接口,默认支持API调用,用户可以通过Apifox等工具调试这些API。

本文来介绍一下怎么下载 Ollama 并部署 AI 大模型(DeepSeek-R1、Llama 3.2 等)。通过 Ollama 这一开源的大语言模型服务工具,你就可以在自己的电脑上跑其它开源的 AI 模型。接下来,我们将分步骤说明如何完成下载和安装,以便你能够轻松地与 AI 开展对话。


步骤 1:下载并安装 Ollama

首先访问 Ollama 的官方 Github 地址:https://github.com/ollama/ollama,然后在页面上选择相关的系统进行下载(笔者在本文中以 macOS 为例,Windows 系统也是差不多的操作):


下载完成后安装即可:


安装完成后,打开「终端」窗口(macOS 可按 F4 搜索“终端”),输入ollama后出现以下提示说明安装完成。


步骤 2:安装 AI 模型

Ollama 安装完毕,我们还需要下载相应的 AI 模型才可以使用,可输入以下命令来下载相关模型:

ollama run Llama3.2

当然,你可以根据你的系统配置来下载其它 AI 模型,这是 Ollama 官方列出的模型,里面也列出了相应的下载命令:


Model

Parameters

Size

Download

DeepSeek-R1

7B

4.7GB

ollama run deepseek-r1

DeepSeek-R1

671B

404GB

ollama run deepseek-r1:671b

Llama 3.3

70B

43GB

ollama run llama3.3

Llama 3.2

3B

2.0GB

ollama run llama3.2

Llama 3.2

1B

1.3GB

ollama run llama3.2:1b

Llama 3.2 Vision

11B

7.9GB

ollama run llama3.2-vision

Llama 3.2 Vision

90B

55GB

ollama run llama3.2-vision:90b

Llama 3.1

8B

4.7GB

ollama run llama3.1

Llama 3.1

405B

231GB

ollama run llama3.1:405b

Phi 4

14B

9.1GB

ollama run phi4

Phi 4 Mini

3.8B

2.5GB

ollama run phi4-mini

Gemma 2

2B

1.6GB

ollama run gemma2:2b

Gemma 2

9B

5.5GB

ollama run gemma2

Gemma 2

27B

16GB

ollama run gemma2:27b

Mistral

7B

4.1GB

ollama run mistral

Moondream 2

1.4B

829MB

ollama run moondream

Neural Chat

7B

4.1GB

ollama run neural-chat

Starling

7B

4.1GB

ollama run starling-lm

Code Llama

7B

3.8GB

ollama run codellama

Llama 2 Uncensored

7B

3.8GB

ollama run llama2-uncensored

LLaVA

7B

4.5GB

ollama run llava

Granite-3.2

8B

4.9GB

ollama run granite3.2


在控制台中,出现这个界面代表正在下载(时间会有点久,此过程跟你的网速有关):


当出现Send a message 提示时你就可以跟它进行对话了。


步骤 3:与 Llama3.2 模型开展对话

比如我给 Llama3.2 AI 模型发送一个“你是谁?”的对话:


你可以点击快捷键control+d来结束当前对话,当你关闭这个控制台窗口,下次还想开展对话的时候,也是运行这个命令ollama run Llama3.2,你下载了哪个 AI 模型,就运行哪个。


步骤 4:安装视图界面

每次都打开控制台来开展对话会非常的不方便,所以我们可以装一个 GUI 界面或者 Web 界面。Ollama 的官方 Github 上列有很多,你可以选择一个来安装,每个项目下都有详细的教程,这里不再详细展开说明。


步骤 5:调试 AI API

通过 Ollama 安装的 AI 模型,默认是提供 API 的,你可以在 Ollama API Docs 中查看。


下面我们通过 Apifox 来调试 Ollama 生成的本地 API,没有 Apifox 的可以去安装一个,它是一个非常好用的 API 调试、API 文档、API Mock、API 自动化测试工具。


1. 新建接口

首先复制下面的 cURL。

curl --location --request POST 'http://localhost:11434/api/generate' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "llama3.2",
    "prompt": "Why is the sky blue?",
    "stream": false
}'


然后在 Apifox 中新建一个 HTTP 项目,在项目中新建一个接口,将上面的 cURL 直接粘贴到地址栏中,Apifox 会自动解析相关的参数,粘贴后保存即可。


2. 发送请求

保存接口后,来到「运行」页,点击「发送」,你将收到来自 AI 模型返回的响应。


如果要启用流式输出,你可以将 "stream": false 改为 "stream": true

控制台中「校验响应结果」的提示可以忽略。


总结

本文详细介绍了如何利用 Ollama 工具在本地下载、安装和运行开源 AI 大模型(如 DeepSeek-R1、Llama3.2 等),分步骤讲解了从 Ollama 安装、模型下载、命令行对话到 API 调试的全过程,为实现高效便捷的 AI 互动应用提供了完整指南。


原文链接:使用 Ollama 在本地部署 AI 大模型: 安装、部署和 API 调用的分步指南

相关文章
|
10月前
|
数据采集 机器学习/深度学习 搜索推荐
利用通义大模型构建个性化推荐系统——从数据预处理到实时API部署
本文详细介绍了基于通义大模型构建个性化推荐系统的全流程,涵盖数据预处理、模型微调、实时部署及效果优化。通过采用Qwen-72B结合LoRA技术,实现电商场景下CTR提升58%,GMV增长12.7%。文章分析了特征工程、多任务学习和性能调优的关键步骤,并探讨内存优化与蒸馏实践。最后总结了大模型在推荐系统中的适用场景与局限性,提出未来向MoE架构和因果推断方向演进的建议。
1555 11
|
9月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
7月前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
6293 2
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
JSON 安全 Java
什么是用于REST API的JWT Bearer令牌以及如何通过代码和工具进行调试
在Web开发中,保护REST API至关重要,而JSON Web令牌(JWT)特别是JWT Bearer令牌,是一种高效方法。它通过紧凑、自包含的结构实现安全信息交换,提升用户体验。本文探讨JWT Bearer的基本概念、结构与实现,包括在Java中的应用步骤,以及使用Apipost和cURL进行测试的方法。JWT优势明显:无状态、互操作性强,适用于分布式系统。掌握JWT Bearer,可助开发者构建更安全、高效的API解决方案。
|
6月前
|
存储 监控 安全
132_API部署:FastAPI与现代安全架构深度解析与LLM服务化最佳实践
在大语言模型(LLM)部署的最后一公里,API接口的设计与安全性直接决定了模型服务的可用性、稳定性与用户信任度。随着2025年LLM应用的爆炸式增长,如何构建高性能、高安全性的REST API成为开发者面临的核心挑战。FastAPI作为Python生态中最受青睐的Web框架之一,凭借其卓越的性能、强大的类型安全支持和完善的文档生成能力,已成为LLM服务化部署的首选方案。
1139 3
|
7月前
|
JSON API 调度
Midjourney 技术拆解与阿里云开发者实战指南:从扩散模型到 API 批量生成
Midjourney深度解析:基于优化Stable Diffusion,实现文本到图像高效生成。涵盖技术架构、扩散模型原理、API调用、批量生成系统及阿里云生态协同,助力开发者快速落地AIGC图像创作。
966 0
|
7月前
|
人工智能 API 监控
告别多接口拼凑!阿里云 API 模型聚合实现技术能力协同跃迁
API聚合整合400+国内外AI模型,统一接口、屏蔽差异,降低开发与维护成本,提升效率与系统稳定性,助力开发者高效应对多API调用困境。
785 0
|
7月前
|
人工智能 前端开发 测试技术
Kimi K2 模型更新,带来更强的代码能力、更快的 API
今天,Kimi K2 模型的最新版本 0905 开源发布,进一步提升其在真实编程任务中的表现
1733 0
|
9月前
|
API
本地用阿里云API调用的r1模型,返回的think字段中有奇怪的东西,并且停止思考
这两张图片展示了模型生成内容时可能出现的异常情况,包括图像模糊、结构错误或不符合预期的结果。这可能是由于模型训练数据不足、输入指令不清晰或模型本身存在局限性所致。建议优化输入提示词或调整模型参数以提升输出质量。
下一篇
开通oss服务