开源国内首个财富管理AI智能体评测集FinMCP-Bench,附主流大模型测试结果

简介: 2025年,金融AI迈入Agent时代。盈米基金与阿里云联合发布国内首个财富管理AI评测集FinMCP-Bench,聚焦复杂多轮对话、多步推理与真实工具调用,覆盖10大核心场景,基于万条真实交互数据构建,开源助力AI+财富管理落地。

金融AI进入Agent时代。2025年,AI浪潮汹涌澎湃,正在深刻改变我们每一个人的生产和生活方式。在金融领域,AI的发展已经从生成式AI迈入Agent AI的深水区。而技术竞争的焦点,不再是模型参数的堆砌或者工具提效,而是谁能将AI转化为可信赖、可执行的金融专家,实现真正的业务落地与场景赋能。

01
财富管理AI面临的挑战

面对财富管理领域复杂多变的客户需求,传统的通用大模型往往力不从心。一个合格的投资顾问智能体,必须具备以下"实战"能力:

  • 复杂多步推理:像真人专家一样将复杂任务分解为多个步骤。
  • 专业工具调用:精准协同调用海量的金融工具和数据服务。
  • 多轮对话记忆:在持续交互中始终保持专业性和上下文连贯性。

盈米基金高级副总裁、且慢业务负责人林杰才表示,“随着AI大模型在财富管理领域的深化应用,财富管理公司都很关心自己的AI应用给客户提供的财富管理服务到底可以打几分,FinMCP-Bench评测集正是为了解决这个问题而面世的。”

在今年9月的2025云栖大会上,盈米基金与阿里云联合发布了国内首个财富管理领域的理财智能体评测集——FinMCP-Bench。作为一套权威且贴近真实财富管理业务场景的评测体系,FinMCP-Bench可以客观衡量 AI 在“金融服务实战”中的表现,并且对外开源共建、不断进化。

02
FinMCP-Bench 有何特点?

不同于通用的评测集,FinMCP-Bench是首个聚焦财富管理(投资顾问)领域,针对复杂多轮、多步骤工具调用场景的评测基准。核心特点包括:

  • 数据源于投顾实战:评测数据基于且慢APP “AI小顾” 上10000+条真实生产环境的交互记录,结合多名专家注释和LLM增强策略的高难度案例构建。

  • 真实工具链:整合了65个真实的金融MCP工具(Model Context Protocol,模型上下文协议),涵盖股票趋势分析、基金持仓查询、市场研判等金融服务场景需求。

  • 核心场景覆盖:覆盖10大主要核心场景(如市场分析、投资规划、投资者教育等)和33个子场景,精准还原金融服务的用户画像。

截屏2025-12-12 11.26.06.png

(图|FinMCP-Bench的覆盖场景)

03
FinMCP-Bench评测什么?

FinMCP-Bench重点考察模型在复杂金融场景下的Agentic(代理)能力:

工具调用:模型能否从MCP工具中精准识别并准确调用的能力。

多步推理与规划:面对“先查市场,再看持仓,最后给建议”的复杂指令,模型能否处理顺序调用与并行调用的能力。

多轮对话维系:在平均5.95轮的对话中,模型能否不丢失上下文,保持逻辑连贯的能力。

容错与修正:当遇到模糊的指令或错误指令时,模型能否自我修正的能力。

截屏2025-12-12 11.26.44.png
(图|基于工具链的多工具样本合成)
截屏2025-12-12 11.27.15.png
(图|基于投资顾问角色扮演的多轮样本合成)

评测结果
我们选取了Qwen3系列、DeepSeek-R1、GPT-OSS-20B等6个主流大模型进行同台竞技。
评测结果发现,模型参数大小与金融工具调用性能并非简单的正相关。这也进一步证明了专业垂直评测集对于优化金融垂类模型的必要性。
截屏2025-12-12 11.28.18.png
(图|主流大模型的FinMCP-Bench评测结果)

04
欢迎加入FinMCP-Bench,共同探索AI+财富管理的新可能

我们始终相信,AI的未来在于开放与连接。
目前,FinMCP-Bench现已全面开源,我们诚挚邀请行业伙伴加入这场技术革新。

如果你是:
金融机构与科技公司业务人员,可以利用评测集评估模型的实战水平,优化AI业务落地能力。

AI研究人员与模型/Agent开发者,可以基于评测集和MCP高质量的金融标注数据,探索金融Agent开发的新路径。

高校与学术机构,可以利用该评测标准,助力推动金融大模型的前沿研究。

开源地址
1、Huggingface:
https://huggingface.co/datasets/DianJin/FinMCP-Bench

2、ResearchGate(完整论文):
https://www.researchgate.net/publication/396371996_FinMCP-Bench_Benchmarking_LLM_Agents_for_Real-World_Financial_Tool_Use_under_the_Model_Context_Protocol
(注:另外,需要您开通盈米且慢MCP,获取API Key。)

盈米且慢MCP免费开通地址
https://qieman.com/mcp

FinMCP-Bench 的开源发布只是一个开始。盈米相信,AI将重新定义金融服务的深度与广度。我们期待与您携手,用更精准的代码、更智能的Agentic模型和应用,去更好、更高效地服务好每一位投资者。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
金融行业用好大模型,只有“垂直”一个解
在金融这一高合规、高复杂度的行业中,通用大模型难堪重任,垂直化成为刚需。通义点金通过“数据飞轮+行业Know-how”内化能力,打造涵盖合成、训练、评测、应用的一站式金融大模型工场,推动AI从工具迈向自主智能体(Agentic Model),实现精准、可解释、可持续迭代的业务赋能,引领金融AI进入深度垂直新阶段。
277 0
金融行业用好大模型,只有“垂直”一个解
|
2月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
386 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
2月前
|
人工智能 缓存 监控
Coze AI 智能体工作流:配置与实战完整指南
本文详细介绍了如何利用Coze平台的工作流功能构建智能AI助手。通过解析核心组件并演示“个性化旅行规划师”的完整配置案例,文章展示了如何设计并行处理、集成外部工具并优化性能。重点探讨了工作流的模块化设计、版本控制及成本优化等进阶技巧,旨在帮助用户将AI从简单工具转变为能处理复杂任务、甚至具备自学习能力的业务伙伴。
|
2月前
|
人工智能 搜索推荐 机器人
智能体是什么?3 分钟读懂 AI 智能体核心能力与应用场景
AI 智能体是具备自主理解、决策、执行任务能力的新一代 AI 系统,区别于传统 “指令响应式” 工具,它能像人类搭档一样拆解复杂需求、联动多能力模块完成闭环工作。NuwaAI 作为智能体数字人领域的标杆产品,已实现 “一句话生成智能体数字人”,其独创的双脑架构可支撑教育培训、电商直播、文旅表演、企业服务等 8 大场景,帮助用户将表达力转化为生产力,实测能降低 80% 的重复工作人力成本(数据来源:2025 年 AI 智能体行业白皮书)。
|
2月前
|
人工智能 运维 安全
探秘 AgentRun丨流量一大就瘫痪?如何解决 AI 模型调用之痛
AgentRun 通过完整的模型管理和治理能力,解决模型调用的可靠性的难题。
|
2月前
|
前端开发 小程序 JavaScript
A2UI 规范与 AG-UI 协议:打造高效协同的界面开发体系
A2UI规范与AG-UI协议构建“设计-开发”协同闭环:前者统一视觉与交互标准,后者定义组件通信与跨平台适配,二者融合提升协作效率、保障体验一致,推动界面开发向标准化、可复用、高效能演进。
1200 0
|
2月前
|
机器学习/深度学习 人工智能 监控
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
332 163
|
存储 机器学习/深度学习 缓存
Hybrid Model Support:阿里云 Tair 联合 SGLang对 Mamba-Transformer 等混合架构模型的支持方案
阿里云 Tair KVCache 联合 SGLang,创新支持 Mamba-Transformer 等混合架构模型。通过双池内存、状态快照等技术,解决异构状态管理难题,实现前缀缓存与推测解码,显著提升 Qwen3-Next 等模型的推理效率,推动大模型迈向高效智能体时代。

热门文章

最新文章