近期 AI 领域的新发布所带来的启示

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,182元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 2024 年以来,AI 基础设施的快速发展过程中,PaaS 层的 AI 网关是变化最明显的基建之一。从传统网关的静态规则和简单路由开始,网关的作用被不断拉伸。用户通过使用网关来实现多模型的流量调度、智能路由、Agent 和 MCP 服务管理、AI 治理等,试图让系统更灵活、更可控、更可用。国庆期间 AI 界发布/升级了一些产品,我们在此做一个简报,从中窥探下对 AI 网关演进新方向的启示。

作者:望宸


2024 年以来,AI 基础设施的快速发展过程中,PaaS 层的 AI 网关是变化最明显的基建之一。从传统网关的静态规则和简单路由开始,网关的作用被不断拉伸。用户通过使用网关来实现多模型的流量调度、智能路由、Agent 和 MCP 服务管理、AI 治理等,试图让系统更灵活、更可控、更可用。


国庆期间 AI 界发布/升级了一些产品,我们在此做一个简报,从中窥探下对 AI 网关演进新方向的启示。


01 自由度更高的低门槛后训练工具


OpenAI 前 CTO Mira Murati 创建的 Thinking Machines Lab 发布了其第一款产品「Tinker」,旨在简化大规模语言模型的微调过程。用户可以通过 Python 编写训练循环,Tinker 则负责分布式训练的基础设施管理。目前支持阿里云的 Qwen 系列模型和 Meta 的 Llama 系列,主要面向研究人员、开发者和 AI 爱好者,特别适合需要定制化模型的用户。


相比市面上,例如各云厂商已经提供的低门槛(白屏化)的模型微调工具/平台,「Tinker」的主要优势是微调的自由度更高,它为编写实验和训练流水线提供了底层的、清晰的 API 接口,通过标准的 Python 代码,就可以对损失函数、训练循环和数据工作流等进行精细化控制。


虽然基础模型越来越智能,但「Tinker」是希望以更开放的方式,让更多的人基于私有数据和算法,自行构建专业知识和领域的模型。


这一趋势会进一步强化 AI 网关在多模型的流量调度、智能路由场景下的需求程度。当前 AI 网关大多采用简单的、与内容无关的路由策略(如基于 URL 路径),无法理解 AI 请求的内在语义。这种路由方式导致所有请求,无论简单或复杂,都被发往同一个默认模型,造成了模型错配、甚至资源的浪费。通过智能路由的功能,将符合语义设计要求的路由到后训练过的模型,其他请求则路由到基础大模型。Higress 正在开发相关能力,如果您有相关技术储备,欢迎参与我们的挑战赛


02 被再一次激活的工具生态


《AI 原生应用架构白皮书》中,我们分享过:工具的意义在于,实现了大模型向物理世界的延伸,把物理世界的读写权以受控的方式暴露给模型,让其在安全边界内发挥效能。虽然世界范围内已有成千上万个 MCP Server,但是调用其的 Agent 数量有限,使用 Agent 调用 MCP Server 的用户更是寥寥。这其中的原因是复杂的,既有 Agent 的集成和输出体验问题,也有 MCP Server 良莠不齐的准入问题,更有用户侧的采用心理成本和收益问题等等。


OpenAI 推出的 App Inside ChatGPT 开始尝试解决这些棘手的问题,笔者认为这是一个很好的示范作用,全球活跃度最高的 Agent 通过工具生态带来更好的 AI 体验,可以极大的激活开发者生态。


  • 对其他 Agent 而言,最大的收益是标准路径的出现。过去每个团队都在尝试自己解决工具集成的问题,写各类适配器、定义各自的接口。ChatGPT 的工具生态如果稳定下来,就相当于给全行业提供了样板间:工具应该如何暴露能力、如何描述参数、如何被模型检索、如何在对话中被自然引用。Agent 开发者可以直接借鉴这些范式,并专注在自己的业务场景上。
  • 对 MCP Server 而言,当越来越多用户习惯在 ChatGPT 内部直接调用 Figma、Canva、Zillow 这些 APP。这种用户认知的改变,会反向刺激更多开发者去完善自己的 MCP 工具,让工具更快响应、参数更直观、结果更可解释,而不仅仅是符合规范、快速上线。


虽然 App Inside ChatGPT 采用的是 MCP 标准,但是提供的开发者指南是有本质上的差异的,例如支持支持双向的、实时的通信方式。并提供了专门的设计指南,其强调的是:应用程序(APP)存在于 ChatGPT 内部,它们扩展了用户的功能,同时又不会打断对话流程,并通过轻量级卡片、轮播、全屏视图和其他显示模式无缝集成到 ChatGPT 界面,同时保持其清晰度、可信度和语音功能。


这些差异性正是用来尝试解决上文提到的三大问题。详细的开发指南差异性和设计指南,可以查看:

https://developers.openai.com/apps-sdk


以下我们直接从用户的交互体验上对比两者的不同。


交互体验

ChatGPT 调用 APP

MCP 模式下的 APP 调用

一体化 /连贯感

用户在会话里提一句话,就可以直接触发 APP,用户不一定会察觉 APP 被调用的过程。

模型在对话中出现“正在调用 /外部工具处理中 /等待响应”等提示,用户能感知工具是模型思考链的一环。

工具体验内置

调用的 APP,其操控在ChatGPT 中进行。

调用的 APP,其操控需跳出ChatGPT,到 APP 中进行

实时性

支持 Real Time 的通信方式。

 单向通信为主。

可见性 /工具探索

有 APP 的展示目录、推荐、图标、描述等,用户能浏览 /启用 /停用工具。工具可以被设计为像插件一样在 ChatGPT 中被安装。

工具通常是模型内部的一部分,用户不一定有清晰的工具目录界面,而是由模型在背后决定是否调用。

视觉一致性

统一设计工具的 UI /对话界面 /交互风格,用户体验更一致。

工具在不同模型 /Agent 调用下可能表现不一样,体验一致性更难保证。

错误 /Fallback

可以在工具调用失败时做平滑降级 /捕获 /重试 /回退,对话可以继续进行。用户体验相对稳定。

如果模型 /工具调用失败,模型本身要判断如何 fallback,可能导致对话中断 /不连贯 /出错提示明显。

操作权限 /用户授权

可以统一处理用户授权 /数据访问 /隐私边界,用户对 APP 的权限控制可能集中在 ChatGPT 平台 UI 内。

授权 /数据访问控制可能要由模型 /工具设计者在调用层面自行控制;用户可能需要多次授权或手动干预。


总的来看,ChatGPT Apps SDK 的调用机制倾向于隐藏调用边界、减少显性工具感,目标是让工具能力像 ChatGPT 自有的能力。而 MCP 模式,由于其中立性,无法为 Agent 定义一种设计指南,并基于此定义开发细致的开发指南,因此选择保留更多模型/Agent 与工具之间的可见协作感,工具调用可能显得更露出。


这一趋势会激活 AI 网关在 MCP 场景下沉淀的能力,例如 MCP Server 代理、工具精选、安全认证,以及统一观测、限流等治理能力。


03 Agent 开发者套件


大家是否还记得今年 4 月 Langchain CEO 驳斥 OpenAI 出品的 Agent 构建指南,认为这本指南缺乏技术细节,难以指导开发者确定 Agent 的具体功能和实现方式。他认为一个可靠的编排层对开发者是至关重要的,不仅能提升获取上下文的的准确度,对数据的持久化和容错都有直接的帮助。


这不 6 个月后,OpenAI 推出了自己的 Agent 开发者套件(Agent Kit),包含 Agent Build、Connector Registry、Chat Kit。


Agent Build:

我们曾在《AI 原生应用架构白皮书》中分享过两种主流的 Agent 构建范式,低代码和高代码。Agent Build 属于低代码,用于创建多代理工作流的可视化画布,并进行版本控制,让工程师和领域专家能够在同一个界面上协同工作,是比较友好的展示模式。和其他框架一样,也同样提供了模型、工具、安全护栏、知识库、记忆、评估等能力。此外,提供了 SDK 的高代码编排框架,相比低代码是更好的应用构建模式。

1760165356846_9054CA4C-2C84-4d34-A5D0-CBCDC55BD2AF.png

Connector Registry 为管理 OpenAI 产品间数据和工具的连接方式提供了便利,这个有点像 Himarket 对 API、MCP、Agent 提供的管理平台,只是前者是用来对连接器进行集中的后台管理。Chat Kit 则是将代理工作流程引入产品 UI,并将可嵌入的聊天连接到代理后端。


总的来看,无论您是使用 Agent Build 来构建一个基于 OpenAI API 的原生 Agent,还是将 Agent 通过 Chat Kit 引入存量应用,这些工具都进一步降低了开发成本,缩短交付周期。当越来越的企业和开发者将 AI 应用部署到云计算厂商的基础设施上,都需要进行企业级的安全、审计、权限管理、流量控制、成本管控等私有能力建设,这将提升企业对云上计算、存储、网关的需求程度。


04 视频生成工具的意义


看上去似乎是一个和 AGI 关系不大的视频生成工具,但对社会与技术的协同进化将具有特别的推动作用。可能大多数从业者有类似的体感,由于 AI 技术的发展远超公众对 AI 的认知迭代,而公众需要时间来理解、适应和消化,这导致 AI 的真实能力远未被大众所理解和利用。


相比文本,Sora 具有更强的情感共鸣和影响力,也更容易激发公众的创造热情。通过 Sora,自然语言不再仅仅是触发逻辑操作,而是生成可感知的世界,这能加速公众对 AI 的理解和运用能力。


另一方面,如果说 LLM 让机器理解语言,Sora 则是让机器理解世界的动态结构,两者结合才可能让 AI 在物理与社会可视化的环境中演化。


这一趋势会加速多模态场景对 AI 网关的诉求,包括通讯协议的兼容(例如对 WebSocket 的支持)、内容安全的审核、请求和响应内容的保存用于可观测建设等。

相关文章
|
13天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
11天前
|
存储 人工智能 搜索推荐
终身学习型智能体
当前人工智能前沿研究的一个重要方向:构建能够自主学习、调用工具、积累经验的小型智能体(Agent)。 我们可以称这种系统为“终身学习型智能体”或“自适应认知代理”。它的设计理念就是: 不靠庞大的内置知识取胜,而是依靠高效的推理能力 + 动态获取知识的能力 + 经验积累机制。
390 134
|
11天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
491 132
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
2天前
|
人工智能 移动开发 自然语言处理
阿里云百炼产品月刊【2025年9月】
本月通义千问模型大升级,新增多模态、语音、视频生成等高性能模型,支持图文理解、端到端视频生成。官网改版上线全新体验中心,推出高代码应用与智能体多模态知识融合,RAG能力增强,助力企业高效部署AI应用。
205 0
|
12天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
489 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
5天前
|
存储 JSON 安全
加密和解密函数的具体实现代码
加密和解密函数的具体实现代码
234 136
|
23天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1574 87