私有化部署大模型并配置可视化界面

2025-08-05 2056

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Ollama 是一款专为大模型本地私有化部署设计的轻量级工具，支持跨平台运行，兼容 Windows、macOS、Linux 系统及多种硬件架构。通过简单的命令行操作，用户可一键启动、下载与管理主流大语言模型，如 Llama 3、Mistral、Gemini、Phi 等。其核心优势在于自动化处理模型依赖、资源调度及环境配置，大幅简化部署流程，即使非专业技术人员也能快速上手。Ollama 的本地运行模式确保数据全程在私有环境流转，规避隐私泄露风险，适用于企业内部知识库、客服助手、本地数据分析等场景。

Ollama

简介

官网：https://ollama.com/

Ollama 是一款专为大模型本地私有化部署设计的轻量级工具，旨在降低大模型落地门槛，让企业与开发者无需复杂配置即可在本地环境运行主流大语言模型。

它支持跨平台部署，兼容 Windows、macOS、Linux 系统及多种硬件架构，通过极简的命令行交互实现模型的一键启动、下载与管理。核心优势在于自动化处理模型依赖、资源调度及环境配置，大幅简化部署流程，即使非专业技术人员也能快速上手。

Ollama 集成了丰富的主流开源模型生态，包括 Llama 3、Mistral、Gemini、Phi 等热门模型，并支持模型微调与自定义配置。其本地运行模式确保数据全程在私有环境流转，规避隐私泄露风险，完美适配企业内部知识库、客服助手、本地数据分析等私有化场景。同时，通过标准化 API 接口，可轻松与业务系统集成，为私有化大模型应用提供灵活高效的技术支撑。

安装

这里用CtenOS做演示，用CtenOS7部署，可能不支持最新版本。

官方指南：https://github.com/ollama/ollama/blob/main/docs/linux.md

curl -fsSL https://ollama.com/install.sh | sh

ollama --version

touch /etc/systemd/system/ollama.service
vi /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=root
Group=root
Restart=always
RestartSec=3
[Install]
WantedBy=default.target

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

ollama -v

至此，Ollama安装完成！

可选操作：

vi /etc/profile

export OLLAMA_MODELS=/root/ollama

source /etc/profile
echo $OLLAMA_MODELS

Ollama客户端命令

todo

Ollama的命令与docker及其类似：

run运行模型

ollama run MODEL[:Version] [PROMPT] [flags]

:Version为版本，不指定则为latest。

ollama run qwen2   # 等同于： ollama run qwen2:latest

PROMPT为用户输入的提示词，如果携带提示词，run命令会执行了输入提示词之后即退出终端，即只对话一次。

flags指定运行时参数

show显示模型信息

不用运行大模型，查看模型的信息，与/show功能类似。

pull拉取模型
list查看本地模型
ps查看运行的模型
cp复制模型
rm删除模型

通义千问大模型

简介

官网：https://qwen.readthedocs.io/zh-cn

由阿里巴巴达摩院研发的通义千问（Qwen）大模型历经迭代，2025年推出的Qwen3版本作为全球首个混合推理模型，创新性融合“快思考”与“慢思考”模式，总参数量235B但激活仅需22B，大幅降低部署成本，在AIME25数学测评（70.3%准确率）、LiveCodeBench代码评测（51.8分）及BFCL智能体任务（70.9分）中表现优异，支持文本、图像、音频多模态交互及128K tokens长文档处理，已开源200余个模型（全球下载量超3亿次，衍生模型超10万个），并提供智能客服、文档问答等企业级SaaS化解决方案，支持本地轻量化部署（4张H20显卡即可运行满血版，显存占用仅为同类模型的1/3），广泛应用于电商、金融、政务等领域推动AI普惠化落地。

下面，我将使用阿里qwen3:1.7b做演示，链接：https://ollama.com/library/qwen3:1.7b

ollama run qwen3:1.7b

至此，本地部署大模型成功！

常见对话命令

todo

/?列出支持的指令列表
/show查看当前模型详细信息
/? shortcuts查看控制台可用快捷键
"""多行输入
/set设置当前对话模型的系列参数
/clear清除上下文记忆
/load
/save把当前对话模型存储成一个新的模型

Ollama API

Ollama对客户端相关的命令也提供API操作的接口，方便在应用中通过程序类操作私有大模型。

官方文档：https://github.com/ollama/ollama/blob/main/docs/api.md

为了在本机（开发环境）中能访问虚拟机中的Ollama API，我们需要先开通Ollama的远程访问权限：

vi /etc/profile

export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS=*

source /etc/profile

vi /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve # 使用 which ollama 查看自己实际路径
User=root
Group=root
Restart=always
RestartSec=3
Environment="OLLAMA_MODELS=/root/ollama"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
[Install]
WantedBy=default.target

systemctl daemon-reload
systemctl restart ollama

然后，开放指定窗口，或者关闭防火墙。生成环境下建议开放指定端口即可，这我关闭防火墙。

firewall-cmd --zone=public --add-port=11434/tcp --permanent
firewall-cmd --reload

systemctl stop firewalld

Docker

简介

官网：https://www.docker.com/

Docker 是一款开源的容器化平台，通过操作系统级虚拟化技术实现应用及依赖的打包与隔离。核心组件包括镜像（Image）和容器（Container）：镜像为可执行的静态模板，包含运行应用所需的代码、库和配置；容器则是镜像的动态运行实例，独立隔离且资源轻量。

安装

这里我使用阿里云下载安装包，离线安装，下载链接：https://mirrors.aliyun.com/docker-ce/linux/static/stable/x86_64/docker-20.10.24.tgz

tar -zxvf docker-20.10.24.tgz

cp docker/* /usr/bin/

vi /etc/systemd/system/docker.service

[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target
[Service]
Type=notify
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
TimeoutStartSec=0
Restart=always
StartLimitBurst=3
StartLimitInterval=60s
[Install]
WantedBy=multi-user.target

# 重新加载系统服务配置
systemctl daemon-reload
# 启动Docker服务
systemctl start docker
# 设置开机自启
systemctl enable docker
# 验证安装是否成功
docker --version

配置镜像加速

sudo tee /etc/docker/daemon.json <<EOF
{
  "registry-mirrors": [
       "https://docker.m.daocloud.io",  
       "https://docker.actima.top",
       "https://docker.1panel.live"
  ]
}
EOF
systemctl restart docker
docker pull nginx

可以拉取，配置成功：

LobeChat

简介

官网：https://lobehub.com/zh

由LobeHub开发的LobeChat是一款开源的AI聊天应用与开发框架，支持集成ChatGPT、Gemini、Claude等主流大语言模型，提供文本、图像、语音多模态交互能力，内置290+助手市场与50+插件商店（涵盖学术、金融、游戏等领域），支持自定义模型列表及本地轻量化部署（如Docker一键启动），可一键免费创建私人ChatGPT/LLM网页应用，具备智能客服、文档问答等企业级SaaS化解决方案，已在电商、金融、政务等领域实现知识管理、智能交互等场景落地，全球下载量超3亿次，衍生模型超10万个，成为开发者构建AI应用与企业部署私有知识库的首选工具。

安装

docker pull lobehub/lobe-chat:latest

拉取成功！

docker run -d -p 3210:3210 --name lobe-chat lobehub/lobe-chat

然后，就可以在本地访问了！

虚拟机IP + :3210

使用

首先查看大模型有没有启动：

ollama ps

LobeChat接入本地大模型：

关闭OpenAI，使用本地大模型：

使用自己部署的模型：

至此，可视化界面搭建完成！

MaxKB

简介

官网：https://maxkb.cn/

MaxKB（Max Knowledge Brain）是开源企业级智能体平台，主打 “开箱即用”，降低企业 AI 落地门槛。核心功能包括 RAG 检索增强生成（提升问答准确性）、工作流编排、多系统嵌入，兼容本地及国内外主流大模型（如通义千问、OpenAI 等）。适用于智能客服、企业知识库等场景，已在教育、医疗、企业等领域落地。

安装

docker pull registry.fit2cloud.com/maxkb/maxkb:latest

docker run -d --name=maxkb --restart=always -p 3211:8080 -v /root/data/maxkb:/opt/maxkb registry.fit2cloud.com/maxkb/maxkb:latest

启动成功后就可以访问了：

虚拟机IP + :3211

输入账号，密码登录：

admin

MaxKB@123..

作者留言

以上内容基本搭建完成，具体的使用，可以自行查阅，作者有空再进行补充。

私有化部署大模型并配置可视化界面

Ollama

简介

安装

Ollama客户端命令

通义千问大模型

简介

常见对话命令

Ollama API

Docker

简介

安装

配置镜像加速

LobeChat

简介

安装

使用

MaxKB

简介

安装

作者留言

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

私有化部署大模型并配置可视化界面

Ollama

简介

安装

Ollama客户端命令

通义千问大模型

简介

常见对话命令

Ollama API

Docker

简介

安装

配置镜像加速

LobeChat

简介

安装

使用

MaxKB

简介

安装

作者留言

热门文章

最新文章

相关课程

相关电子书

相关实验场景