Ollama 本地大模型外网安全访问最佳实践:ZeroNews 内网穿透完整方案

简介: 企业本地部署 Ollama 大模型,出差、异地团队想远程调用 API 十分麻烦,开 VPN 流程复杂,直接暴露 11434 端口极易被扫描攻击。本文分享 ZeroNews 内网穿透完整实践,不用公网 IP、不用客户端,通过独立隧道隔离不同访问人群,搭配账号认证、IP 拦截、接口路由过滤缩小暴露面,兼顾外勤开发、外协对接、对外开放 API 等需求,兼顾易用性与数据安全,完整讲解流量架构、分场景安全配置与落地价值,解决私有化本地大模型外网访问难题。

一、Ollama 是什么
ollama 是一个在本地电脑/服务器上运行大语言模型的工具。你可以把它理解成「自己机器上的模型运行时」,在本机加载推理,通过命令行或 HTTP API 对话,请求和数据默认不出你的电脑。
日常用法很简单。装好 Ollama 后,终端里 ollama pull、ollama run 即可交互;程序侧通过 HTTP API 对话(默认 127.0.0.1:11434,接口细节见 部署实战 · Ollama API)。
它适合这几类部署:
●开发机 / 工作站 — 有 NVIDIA 显卡,本地试 prompt、接 RAG 原型。
●公司 GPU 服务器 — 团队共用一台推理机,模型和日志留在内网。
●边缘或工控旁路设备 — 算力有限,跑 7B、8B 小模型做专用任务。
和直接调 OpenAI、Anthropic 等云 API 比,Ollama 的核心优势:模型文件和推理过程在你掌控的硬件上,不依赖公网 SaaS,适合对数据出境、调用零成本、离线可用性有要求。
二、为啥要把 Ollama 暴露出去
出于成本/安全考虑,越来越多企业及团队把 Ollama 部署在内网机房或私有云里,Ollama 装完就能跑,curl localhost:11434 就能对话,数据不出内网,成本也可控。
但模型服务跑起来之后,访问往往还停在本机或内网可用。当同事在家或出差想调 /v1/chat/completions;或手机 Demo 要连回公司 GPU;外面的 RAG 服务要把检索结果发给内网 Ollama——这些请求默认到不了内网那台机器。
常规做法不外乎下面几种:
●VPN 拨回内网 — 能用,但每个调用方都要装客户端,临时联调很麻烦,设备投入和运维成本也不低。
●路由器端口映射 — 把 11434 直接扔到公网,HTTPS 没有,谁拿到地址谁都能调,模型和数据风险都很大。
●云 API 中转 — 绕一圈公有云,本地部署的意义被削弱,云带宽成本也高。

那有没有一种既安全又简单的方法,把本地 Ollama 映射到公网?
ZeroNews内网穿透能较好解决 Ollama 公网安全访问的问题:IP 白名单、Basic 认证、地区访问控制等多种策略可保障 API 访问安全;Client 出站连接,适应无公网 IP 的机房环境。

四、Ollama 安全访问流量路径

调用方(同事 PC / 外部 App / 另一个服务)
│ HTTPS

ZeroNews 边缘网关(TLS、访问策略)
│ HTTPS

前置访问策略(IP 白名单、Basic 认证、路由白名单/地区访问控制)
│ 加密隧道

ZeroNews Client(与 Ollama 同机或同网段)
http://127.0.0.1:11434

Ollama(仅本机监听,不改为 0.0.0.0)

2.png

安全原则:
1.Ollama 不直接对公网开放,保持 127.0.0.1:11434。
2.只映射 API 端口,只映射 Ollama 的服务端口 11434, 其他端口一律关闭。
3.只开放 API 指定路由,只开放 API 指定路由路径,如 /v1/chat/completions,不用暴露的路由路径一律不开放。
4.在 ZeroNews 层做访问控制,弥补 Ollama 无原生 API Key 的缺口。

五、常见使用场景

同事联调 RAG。 检索服务在 A 机器,Ollama 在 B 机器(GPU)。B 上映射 API,A 通过 HTTPS 调 B 的 /v1/chat/completions,不用拉 VPN,联调地址固定好分享即可。

外网 Demo 给客户看。 本地部署的行业模型给客户演示,临时开 HTTPS 域名,Demo 结束关隧道;比把整个办公网 VPN 给客户账号安全得多。

多办公点共用一台 GPU 服务器。 公司只有一台 4090 机器,上海、北京同事都要调 API。ZeroNews 提供统一 HTTPS 入口 + IP 白名单,Ollama 仍在机房内网。

自动化脚本远程推理。 CI 或定时任务通过公网域名调用内网 Ollama 做批量摘要——建议固定域名 + 严格 IP 限制,并评估 GPU 队列,避免和人工争资源。

七、怎么安全地使用 ZeroNews
ZeroNews 简单几步就把 Ollama 接到公网不难,针对不同的应用场景,ZeroNews 可以提供差异化的安全使用需求

多场景、多映射:别一条隧道包打天下
将 Ollama 映射多条隧道,提供多个域名都能访问到 Ollama,做差异化访问需求,不建议共用一个万能域名 + 零限制的映射。

3.png

对外正式提供服务 — 绑定企业自有域名,对外口径统一,跟企业品牌一致,这条隧道长期使用。
临时联调、内部测试 — 用 ZeroNews 平台分配的临时子域即可。联调范围小、生命周期短,Demo 或 sprint 结束直接在控制台删隧道,域名随之失效,不会跟正式环境抢入口,也方便日后回收,不留长期暴露面。
不同用途分开建映射 — 员工外勤一条、合作伙伴一条、对外开放 API 一条,哪怕都指向同一台 127.0.0.1:11434,在 ZeroNews 上也是独立的隧道。好处是权限策略可以按域名隔离,某条出问题也只关那一条,不用动全局。

给企业员工:认人不认共用一个密码
员工在家、出差要调内网 Ollama,适合单独一条内部员工映射。

4.png

Basic 认证,一人一账号。 在隧道上启用 Basic Auth,给每位需要外网访问的员工分配独立账号口令,不要全公司共用一个 admin:123456。谁在用、什么时候在用,至少能对应到个人;人员离职时在控制台改密或删账号,不必全员换 VPN。
地区访问控制。 若员工主要在国内办公,可开启地区访问控制,只允许中国大陆(或你指定的省/区域)来源访问,异常海外 IP 直接拦在网关外,降低撞库和扫描风险,也减少「账号泄露后被海外滥用」的可能。

给外协 / 合作伙伴:先认 IP,再认路径
外协厂、集成商、短期合作方没有你们 VPN,也不该进整网。单独为合作方建一条映射,策略宜先卡来源,再卡路径
5.png

IP 访问黑白名单。 让对方提供固定出口 IP(或少量 IP 段),写入白名单;只有这些来源能打到该域名。若发现滥用,可先拉黑单个 IP 而不关正式员工隧道。黑名单可挡已知恶意扫描源。
路由白名单,最小暴露面。 Ollama 默认暴露整站 API 时,对外协若只需委外相关或指定推理接口,在 ZeroNews 配置路由白名单,只允许如 /v1/chat/completions 等必要路径,其余路由一律 404 或拒绝。路由再收窄一层,外协看不到不该看的管理类接口。

对外提供 API 接口:路由白名单是底线
若 Ollama(或前面挂的 API 网关)作为对外公开的 LLM API 给第三方系统调用,这是暴露面最大的一类,建议单独域名 + 最严策略
6.png

严格路由白名单。 只放行业务真正用到的路径,例如 /v1/chat/completions、/v1/embeddings;明确不暴露 /api/tags(拉模型列表)、/api/pull 等与对外服务无关的管理/运维类路由。ZeroNews 在边缘按路径过滤,即使 Ollama 本机开着更多接口,公网也打不进去。

六、ZeroNews 的价值
把 Ollama 暴露到公网,不只是有个地址能访问——还要安全、稳、好维护。ZeroNews 在 Ollama 这类本地 LLM 场景里,价值主要体现在下面几方面。

按需映射,暴露面最小化。 ZeroNews 只需要映射 Ollama 的API 端口,同时提供 HTTPS、IP 白名单、Basic 认证、地区访问控制等的安全能力最大化的保障 ollama 的访问安全。

稳定、快速访问 ZeroNews 采用优质的 BGP 大带宽线路,前置负载均衡实现多网关负载与容灾,实时检测内网Ollama API 可用性。

AI 加持。 ZeroNews 提供 https://zeronews-local-api-ci-case-study.mdhttps://zeronews-agent-skills-guide.md :脚本里动态建隧道、Cursor / Claude Code 里一句话完成 Client 配置和端口映射。Ollama 联调、临时 Demo、自动化流水线开入口,都可以和 AI 工具链接在一起,不用每次登录控制台点鼠标。

自有域名,维持企业形象。 证书自动申请与支持绑定企业自有域名,HTTPS续期。给同事、客户或合作方的是 https://llm-api.yourcompany.com 统一访问,而不是临时随机子域,品牌和合规口径也更好统一。

零运维、部署简单。 ZeroNews 不依赖企业具备公网 IP,运行软件客户端简单几步即可完成Ollama 公网访问,无侵入现有网络的部署模式,没有复杂 NAT 配置及硬件投入,访问端也无需安装任何客户端,没有任何运维成本,任何人都可以手上配置。

八、小结

Ollama 和本地 LLM 的优势是数据可控、成本透明,但 API 默认只服务本机。把 11434 裸映射公网既不安全也不符合常见合规直觉。

更稳妥的路径是:Ollama 守在本机,ZeroNews 映射 HTTPS,控制台叠加 IP 白名单与 Basic 认证,调用方走标准 OpenAI 兼容接口。 网络可达交给 ZeroNews,模型权限和业务审计仍握在你自己手里。

相关文章
|
3天前
|
云安全 人工智能 运维
阿里云SecOps Agent,全新安全跨产品执行体验
自然语言驱动 云安全中心/WAF/CFW/ 等多款安全产品联动
1593 2
|
3天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
557 3
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
14天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
15天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
900 11
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
2天前
|
人工智能 监控 前端开发
Electron 监控:让桌面 Agent 监控触手可及
一行代码实现Electron桌面端全景监控,自动还原崩溃现场、预警内存泄漏、全链路追踪、 SSE流式响应与交互埋点,让 AI 助手运行状态清晰可见,助力快速恢复稳定与流畅。
178 125
|
2天前
|
消息中间件 人工智能 Kafka
AI 时代,实时入湖正在告别 ETL:从 Kafka 到 Iceberg 的架构减法
本文围绕“零 ETL”这一趋势,讨论流数据入湖为什么需要做架构减法,并结合 Kafka × Table Bucket 的实践,分析一种将通用入湖能力前移到消息与表存储链路中的方案,如何在降低复杂度的同时,兼顾实时性、一致性、Schema 演进、CDC 语义与开放生态兼容。
183 121
|
7天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
614 0
|
15天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
975 8