Ollama
简介
Ollama 是一款专为大模型本地私有化部署设计的轻量级工具,旨在降低大模型落地门槛,让企业与开发者无需复杂配置即可在本地环境运行主流大语言模型。
它支持跨平台部署,兼容 Windows、macOS、Linux 系统及多种硬件架构,通过极简的命令行交互实现模型的一键启动、下载与管理。核心优势在于自动化处理模型依赖、资源调度及环境配置,大幅简化部署流程,即使非专业技术人员也能快速上手。
Ollama 集成了丰富的主流开源模型生态,包括 Llama 3、Mistral、Gemini、Phi 等热门模型,并支持模型微调与自定义配置。其本地运行模式确保数据全程在私有环境流转,规避隐私泄露风险,完美适配企业内部知识库、客服助手、本地数据分析等私有化场景。同时,通过标准化 API 接口,可轻松与业务系统集成,为私有化大模型应用提供灵活高效的技术支撑。
安装
这里用CtenOS做演示,用CtenOS7部署,可能不支持最新版本。
官方指南:https://github.com/ollama/ollama/blob/main/docs/linux.md
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
touch /etc/systemd/system/ollama.service vi /etc/systemd/system/ollama.service
[Unit] Description=Ollama Service After=network-online.target [Service] ExecStart=/usr/bin/ollama serve User=root Group=root Restart=always RestartSec=3 [Install] WantedBy=default.target
sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama
ollama -v
至此,Ollama安装完成!
可选操作:
vi /etc/profile
export OLLAMA_MODELS=/root/ollama
source /etc/profile echo $OLLAMA_MODELS
Ollama客户端命令
todo
Ollama的命令与docker及其类似:
run运行模型
ollama run MODEL[:Version] [PROMPT] [flags]
:Version为版本,不指定则为latest。
ollama run qwen2 # 等同于: ollama run qwen2:latest
PROMPT为用户输入的提示词,如果携带提示词,run命令会执行了输入提示词之后即退出终端,即只对话 一次。
flags指定运行时参数
show显示模型信息
不用运行大模型,查看模型的信息,与/show功能类似。
pull拉取模型list查看本地模型ps查看运行的模型cp复制模型rm删除模型
通义千问大模型
简介
官网:https://qwen.readthedocs.io/zh-cn
由阿里巴巴达摩院研发的通义千问(Qwen)大模型历经迭代,2025年推出的Qwen3版本作为全球首个混合推理模型,创新性融合“快思考”与“慢思考”模式,总参数量235B但激活仅需22B,大幅降低部署成本,在AIME25数学测评(70.3%准确率)、LiveCodeBench代码评测(51.8分)及BFCL智能体任务(70.9分)中表现优异,支持文本、图像、音频多模态交互及128K tokens长文档处理,已开源200余个模型(全球下载量超3亿次,衍生模型超10万个),并提供智能客服、文档问答等企业级SaaS化解决方案,支持本地轻量化部署(4张H20显卡即可运行满血版,显存占用仅为同类模型的1/3),广泛应用于电商、金融、政务等领域推动AI普惠化落地。
下面,我将使用阿里qwen3:1.7b做演示,链接:https://ollama.com/library/qwen3:1.7b
ollama run qwen3:1.7b
至此,本地部署大模型成功!
常见对话命令
todo
/?列出支持的指令列表/show查看当前模型详细信息/? shortcuts查看控制台可用快捷键"""多行输入/set设置当前对话模型的系列参数/clear清除上下文记忆/load/save把当前对话模型存储成一个新的模型
Ollama API
Ollama对客户端相关的命令也提供API操作的接口,方便在应用中通过程序类操作私有大模型。
官方文档:https://github.com/ollama/ollama/blob/main/docs/api.md
为了在本机(开发环境)中能访问虚拟机中的Ollama API,我们需要先开通Ollama的远程访问权限:
vi /etc/profile
export OLLAMA_HOST=0.0.0.0:11434 export OLLAMA_ORIGINS=*
source /etc/profile
vi /etc/systemd/system/ollama.service
[Unit] Description=Ollama Service After=network-online.target [Service] ExecStart=/usr/local/bin/ollama serve # 使用 which ollama 查看自己实际路径 User=root Group=root Restart=always RestartSec=3 Environment="OLLAMA_MODELS=/root/ollama" Environment="OLLAMA_HOST=0.0.0.0:11434" Environment="OLLAMA_ORIGINS=*" [Install] WantedBy=default.target
systemctl daemon-reload systemctl restart ollama
然后,开放指定窗口,或者关闭防火墙。生成环境下建议开放指定端口即可,这我关闭防火墙。
firewall-cmd --zone=public --add-port=11434/tcp --permanent firewall-cmd --reload
systemctl stop firewalld
Docker
简介
Docker 是一款开源的容器化平台,通过操作系统级虚拟化技术实现应用及依赖的打包与隔离。核心组件包括镜像(Image)和容器(Container):镜像为可执行的静态模板,包含运行应用所需的代码、库和配置;容器则是镜像的动态运行实例,独立隔离且资源轻量。
安装
这里我使用阿里云下载安装包,离线安装,下载链接:https://mirrors.aliyun.com/docker-ce/linux/static/stable/x86_64/docker-20.10.24.tgz
tar -zxvf docker-20.10.24.tgz
cp docker/* /usr/bin/
vi /etc/systemd/system/docker.service
[Unit] Description=Docker Application Container Engine Documentation=https://docs.docker.com After=network-online.target firewalld.service Wants=network-online.target [Service] Type=notify ExecStart=/usr/bin/dockerd ExecReload=/bin/kill -s HUP $MAINPID LimitNOFILE=infinity LimitNPROC=infinity LimitCORE=infinity TimeoutStartSec=0 Restart=always StartLimitBurst=3 StartLimitInterval=60s [Install] WantedBy=multi-user.target
# 重新加载系统服务配置 systemctl daemon-reload # 启动Docker服务 systemctl start docker # 设置开机自启 systemctl enable docker # 验证安装是否成功 docker --version
配置镜像加速
sudo tee /etc/docker/daemon.json <<EOF { "registry-mirrors": [ "https://docker.m.daocloud.io", "https://docker.actima.top", "https://docker.1panel.live" ] } EOF systemctl restart docker docker pull nginx
可以拉取,配置成功:
LobeChat
简介
由LobeHub开发的LobeChat是一款开源的AI聊天应用与开发框架,支持集成ChatGPT、Gemini、Claude等主流大语言模型,提供文本、图像、语音多模态交互能力,内置290+助手市场与50+插件商店(涵盖学术、金融、游戏等领域),支持自定义模型列表及本地轻量化部署(如Docker一键启动),可一键免费创建私人ChatGPT/LLM网页应用,具备智能客服、文档问答等企业级SaaS化解决方案,已在电商、金融、政务等领域实现知识管理、智能交互等场景落地,全球下载量超3亿次,衍生模型超10万个,成为开发者构建AI应用与企业部署私有知识库的首选工具。
安装
docker pull lobehub/lobe-chat:latest
拉取成功!
docker run -d -p 3210:3210 --name lobe-chat lobehub/lobe-chat
然后,就可以在本地访问了!
虚拟机IP + :3210
使用
首先查看大模型有没有启动:
ollama ps
LobeChat接入本地大模型:
关闭OpenAI,使用本地大模型:
使用自己部署的模型:
至此,可视化界面搭建完成!
MaxKB
简介
MaxKB(Max Knowledge Brain)是开源企业级智能体平台,主打 “开箱即用”,降低企业 AI 落地门槛。核心功能包括 RAG 检索增强生成(提升问答准确性)、工作流编排、多系统嵌入,兼容本地及国内外主流大模型(如通义千问、OpenAI 等)。适用于智能客服、企业知识库等场景,已在教育、医疗、企业等领域落地。
安装
docker pull registry.fit2cloud.com/maxkb/maxkb:latest
docker run -d --name=maxkb --restart=always -p 3211:8080 -v /root/data/maxkb:/opt/maxkb registry.fit2cloud.com/maxkb/maxkb:latest
启动成功后就可以访问了:
虚拟机IP + :3211
输入账号,密码登录:
admin
MaxKB@123..
作者留言
以上内容基本搭建完成,具体的使用,可以自行查阅,作者有空再进行补充。