构建真正可用、可靠的智能体,远不止是“让模型动起来”那么简单。如何让智能体灵活调用工具、与环境深度交互?如何确保智能体的开发全程可观测、执行可干预、状态可追溯?更重要的是,如何为开发者提供一套稳定、安全、开箱即用的服务,让智能体从“能跑”走向“可控、可落地”?
为了应对这些挑战,我们推出了新一代智能体开发框架 —— AgentScope 1.0!
AgentScope 1.0 是一款以开发者为核心,专注于多智能体开发的开源框架。它的核心目标是解决智能体在构建、运行和管理中的难题,提供一套覆盖“开发、部署、监控”全生命周期的生产级解决方案,让智能体应用的开发更简单、运行更安全、监控更透明。
为实现这一目标,通义实验室构建三层技术架构:AgentScope 核心框架 负责智能体的构建与应用编排;AgentScope Runtime 提供安全、可靠的智能体运行和部署环境;AgentScope Studio 提供可视化的开发与监控工具。
在AgentScope 1.0 体系中,这三层技术架构作为三个独立的开源项目,根据开发者需求可以被单独使用。其中 AgentScope Runtime 和 AgentScope Studio,也可以兼容其他主流多智能体编排框架,如 LangGraph 和 AutoGen。
AgentScope 核心框架可以看作是一种面向智能体开发的“编程语言”,致力于高效构建基于大语言模型(LLM)的智能体应用。它采用模块化设计,由消息、模型、记忆和工具四大组件构成,实现高度解耦与灵活扩展。更多的技术细节和源码实现可以参见 GitHub 主页。
AgentScope 1.0 在智能体开发上的关键升级,在于其深度融合的三大能力:实时的介入控制、智能的上下文管理、以及高效的工具调用。
传统智能体一旦启动便无法安全干预,AgentScope 基于异步架构,实现了灵活且鲁棒的实时介入控制。
- 安全中断,支持状态持续: 当智能体被中断时,系统会自动维护其上下文与工具调用状态,确保在恢复执行时,任务流能够无缝续接。
- 实时打断,支持用户实时干预:当工具执行时间过长或偏离用户预期时,用户或系统可以随时通过中断机制停止执行,有效避免资源浪费和错误结果的产生。
- 灵活定制,支持自定义中断处理逻辑:通过中断处理机制,开发者可以自定义智能体的中断响应逻辑。
实时的介入控制可支持多种生产级场景:
- 紧急任务插入:暂停当前任务,执行高优先级的指令(如用户说"先查库存再继续下单")
- 动态流程调整:根据中断的用户反馈,动态调整智能体执行过程(如用户说"不需要图表"后跳过图表生成环节)
AgentScope 通过短期记忆与跨会话长期记忆的协同,重构了上下文管理,终结“失忆”、“混乱”与“归零重启”三大痛点。
- 短期记忆优化:通过“动态压缩”和“混合压缩”技术,在对话内部实时提炼语义主干,保留关键信息。开发者可配置原文与摘要的比例,在有限的上下文窗口中最大化信息密度,有效减缓“失忆”与“记忆混乱”。
- 跨会话长期记忆:支持“动态”、“静态”、和“混合”三种长期记忆管理模式。动态模式中,智能体可自主识别和调用关键记忆信息,像人类一样“记笔记”并按需“翻笔记”;静态模式中,开发者可以自主决定长期记忆的存取逻辑。无论是智能体自主决策,还是开发者预设规则,都能实现关键信息的持久化存储与精准调用,有效解决“归零重启”的问题。
随着可调用工具数量的激增,智能体面临着工具管理复杂、执行效率低、上下文紧张的问题。AgentScope 通过“注册、管理、执行”三个环节,构建了一套高效、可靠的工具管理体系。
- 注册:提供标准化的注册接口,支持自动提取工具的 JSON Schema,提供参数预设和工具函数后处理接口,降低集成门槛。
- 管理:支持工具的结构化组织与动态控制,包含以下机制:
- 工具组 (Tool Group): 按照功能性对工具进行分类(如浏览器、地图服务),允许智能体根据当前任务按需进行激活,有效缓解上下文窗口压力。
- 元工具 (Meta-Tool):支持智能体在运行时动态启用或停用工具组,并自动将使用注意事项注入Prompt,实现智能化的工具管理。
- 执行:采用统一接口处理所有工具调用,无论同步、异步或流式输出,在 AgentScope 中将被统一为异步流式返回,降低工具函数返回的处理代价。同时,智能体内支持工具的并行调用,大幅提升运行效率。
在智能体的应用开发中,光有“编程语言”还不够,还需要强大的基础设施来支撑其运行。我们可以把 AgentScope Runtime 理解为智能体的“操作系统”, 它为支撑智能体应用提供了两大核心基础设施: 安全工具沙箱和部署运行引擎。欢迎访问 AgentScope Runtime的GitHub 仓库。
为了让智能体能够安全地执行代码、操作文件、浏览网页等,AgentScope Runtime 构建了基于容器技术的安全工具沙箱。这是一个被严格隔离的运行环境,智能体可以在其中自由探索操作,但所有操作都被限制在沙箱内,确保不会对外部环境造成任何影响。
AgentScope Runtime 基于容器技术构建了系统级的安全隔离工具执行环境,原生支持代码执行、文件操作、浏览网页、智能体训练评估等多种场景。通过模型上下文协议(MCP),可随时为沙箱“装修升级”,动态添加新工具和能力。
- 多类型专用沙箱,适配多样功能场景。
# 代码执行沙箱:运行Python代码 BaseSandbox().run_ipython_cell(code="print('Hello World')") # 文件操作沙箱:写文件 FilesystemSandbox().write_file(path="data.txt", content="...") # 浏览网页沙箱:访问网页 BrowserSandbox().browser_navigate("https://www.example.com/") # 智能体训练评估沙箱:获得Benchmark信息 TrainingSandbox().get_env_profile(env_type="appworld", split="train")
- 直观的函数式调用接口设计,让工具使用像调用普通函数一样简单,运行时支持多种执行模式:
from agentscope_runtime.sandbox.tools.base import run_ipython_cell # 1. 函数式直接调用沙箱内工具,简单易用(自动创建一次性沙箱) run_ipython_cell(code="...") # 2. 运行时指定沙箱 run_ipython_cell(sandbox=sandbox, code="...") # 3. 声明式绑定沙箱 bound_tool = run_ipython_cell.bind(sandbox=sandbox) bound_tool(code="...")
- 原生集成MCP协议,支持沙箱功能动态扩展。
AgentScope Runtime 原生集成MCP SDK,允许在保障安全性的前提下动态扩展沙箱功能。
此外,AgentScope Runtime还支持沙箱服务 K8S 或 Docker 部署,并提供 Redis 一致性校验、OSS 文件持久化存储等生产级特性,实现沙箱服务的横向扩展和高可用性。
部署运行引擎是一套用于部署、管理和运行智能体应用程序的基础设施,内置上下文管理(长短期记忆、外部知识库)和环境沙箱控制服务。部署运行引擎提供了一套完整的部署解决方案,让开发者能将智能体应用迅速“迁移到云端”,对外提供服务。
- 多协议支持:基于 FastAPI 构建,原生支持 RESTful API、流式响应、标准Agent协议,并支持 A2A(Agent-to-Agent)智能体间通信协作。
- 灵活部署:支持单机多端口并发部署,允许在同一主机上运行多个独立的智能体服务实例。
- 框架无关:除AgentScope之外、还可无缝对接LangGraph、AutoGen等主流智能体框架。
- 生产级特性:内置健康检查、服务监控和可观测性功能,确保应用稳定可靠。
AgentScope Studio 集成了实时监控与智能体评测两大核心功能, 并为开发者提供了一站式的可视化平台,为智能体装上了一套完整的“性能检测仪表盘”。欢迎访问 GitHub 项目主页,获取AgentScope Studio 更多技术文档与开源代码。
在智能体运行过程中,开发者需要像驾驶员一样,随时掌握其状态。AgentScope Studio 提供了实时的开发监控能力:
- 状态管理:全方位追踪和保存智能体的内部状态,支持自动识别、注册、导入与导出,确保状态可追溯。
- 可视化追踪:在可视化界面中,实时查看智能体的执行流程、Token消耗、模型调用等具体信息。
- 内置智能体:AgentScope Studio 内置了名为“Friday”的智能体,既可作为开发助手(Copilot)指导用户快速上手,也支持用户在其基础上进行二次开发,快速构建智能体应用。
在智能体的开发和应用过程中,评测至关重要。它不仅能够客观衡量智能体的实际能力,还为其优化提供了明确的方向。AgentScope Studio 提供了功能强大的评测系统,来解决评估测试效率低下、评估缺乏规范、结果难以追踪等问题。
AgentScope Studio为了解决这些难题,设计实现了以下五个功能:
- 任务模块化 (Tasks):将复杂评估拆解为独立的评估单元,确保评估的精确性和可复用性。
- 基准测试体系 (Benchmarks):提供标准化的任务集合,支持从简单到复杂任务的全覆盖评估。
- 多维度指标体系 (Metrics):支持多种评估指标,允许开发者定制专属评估标准。
- 智能评估引擎 (Evaluators):支持多worker并发执行,并内置RayEvaluator实现分布式评估,大幅提升评测效率。
- 持久化存储 (Storage):完整记录评估结果和中间数据,构建可追溯的评测历史。
通过这套全面的监控与评测系统,AgentScope Studio 为智能体装上了专业的“性能检测仪表盘”,让开发者能够快速、准确地评估和优化智能体性能,为应用的产业化落地提供可靠的质量保障。
为了帮助开发者快速上手智能体开发,降低从想法到实现的门槛,AgentScope 推出了一系列开箱即用的智能体示例。这些示例还可以根据开发者的需求进行更多的定制,让开发者从底层工程细节中解放出来,更专注于应用逻辑与场景的创新。
它能多角度解析用户问题,通过持续检索、整合多源信息;并借助 AgentScope 的长期记忆能力记录中间成果、突破上下文限制,最终输出结构清晰、内容详实的综合报告,助你全面掌握关键信息。
基于 LLM 与 Playwright MCP Server,这位专家能像真人一样操作浏览器。无论是购物比价、航班查询、股价追踪,还是网页内容总结,它都能高效完成。它具备任务拆解、视觉与文本联合理解等能力,是处理复杂网页任务的得力干将。
Meta Planner 能动态调度多个“员工智能体”协同作战。它采用 ReAct 模式,将复杂的多步骤任务拆解、分配,并实时追踪进度,实现自适应调整。相比固定流程,它更具更高的灵活性和可扩展性。
这是一个基于 AgentScope Runtime 可部署的智能体示例,融合了 Qwen 模型、LangGraph 框架与高效搜索能力。该智能体已完成完整封装,支持一键运行与快速部署。通过该示例、我们可以看到,AgentScope Runtime 不仅原生支持自有框架,还可无缝集成 LangGraph、AutoGen 等主流智能体开发框架,充分实现了“一次构建,随处运行”的核心理念。
如上展示,AgentScope 1.0 通过三层技术架构:AgentScope 核心框架提供智能体构建的编程语言,AgentScope Runtime 提供安全可靠的部署与运行环境,AgentScope Studio 提供可视化的开发与监控工具,为智能体应用的开发提供了全生命周期的能力支持。
无论你是正在探索智能体技术的初学者、还是需要将智能体部署到生产环境的资深开发者,AgentScope 都能为你提供 完整的开发体验、可靠的基础设施、极致的可控性,立即开始探索吧~
👉 项目地址:
👉 技术报告