金融业是数字化、智能化的先行者,也是大模型技术落地的绝佳领域。
相关研究数据显示,目前国内参数在 10 亿规模以上的金融大模型约有 18 个,从厂商到金融服务平台,都在积极探索将不同业务与大模型结合,进行智能化改造。
但激动人心的局面之下,现实仍面临技术范式的突破如何真正转化为场景价值的共性难题,而金融行业因为天然具备结构化数据充沛和应用场景丰富等特点,同时对输出的内容要求精准、安全、可控、高效等特性,使得金融大模型的探索一直走得更前沿。
盈米基金作为一家投顾规模超 300 亿元资产规模的独立基金销售机构,已将大模型应用在智能投顾客服场景,与业务系统深入融合,从技术路径选择到落地应用,探索走出了一条智能化创新之路。
探索,智能投顾
盈米基金可以说是中国基金投顾市场的探路者。2016 年 7 月盈米上线了一个面向个人用户的理财服务平台 -- 且慢,其定位不是主推某一支产品,而是提供一揽子解决方案,基于客户自身的资产情况、财务规划、人生阶段等信息提供长期的投资顾问服务。对于投顾机构而言,从卖产品到卖服务,不仅改变了收费方式、盈利来源,更是改变了用户长久以来的理财习惯。
但提供千人千面优质的投顾服务并不容易。
首先,投资理财是一个高度个性化的问题,如何做好用户和投资方案和产品的匹配是一个很复杂的问题。此外,基金、保险本身是一个业务复杂度很高的领域,尽管发展多年,但仍有大量的业务规则和数据仍不够标准化,数字化难度高。比如基金销售机构需要大量的人来根据基金公司公告来配置基金的信息和交易规则。另外,金融行业对金融产品的价格、收益等等信息的延迟容忍度是很低的。
过去,为了解决复杂度较高的客户服务问题,除了不断优化 APP 的交互和功能以外,就是做好客服系统。但客服机器人一般只能提供一些格式化的导航信息,大多数情况下会成为“转人工”的跳板,只能用大量的真人客服和顾问来解决客户服务问题。
而 AI 大模型的能力让且慢看到了新的可能性,其内部快速组建了大模型团队、标注团队,并开展内部 AI 大赛,希望从一线征集场景需求、探索 AI 应用的可能,且慢 AI 小顾的想法雏形就由此诞生。
兴奋之余,且慢又遇到了新的挑战——由于无法使用国外大模型,同时期国内大模型又尚未成熟,且慢 AI 小顾的探索之路几乎停滞。
确定一款真正可用的大模型,且慢非常谨慎,通过一套包含约 300 个案例的测试集对市面上的大模型进行测试。比如问“A 基金的规模是多少”,测试大模型的工具调用、参数提取,以及对工具返回的信息进行再次分析能力 ; 再继续问“对比 A 基金与 B 基金的规模谁更大”,测试大模型对上下文的理解能力,以及提取 B 基金规模之后,进行数据清洗、对比的能力 ; 继续追问“两只基金规模加起来是多少”,测试大模型的数学推理能力 ......
看似简单、自然的逻辑,但落在发展初期的大模型上,从技术侧实现起来还是很难的。尽管短期内没有找到理想的大模型,但公司高层坚信国内大模型能快速成长起来——2023 年 11 月 Qwen-72B 开源大模型,且慢第一时间进行测试,发现效果意外好,也由此开启了之后基于通义千问大模型的一步步尝试。
融合,且慢 AI 小顾诞生
且慢对大模型能力的要求很高,从响应质量、响应速度,再到技术迭代速度缺一不可。盈米基金且慢高级技术总监梁仲智表示,现在的确有很多千亿参数的大模型,且慢也都进行了内部测试,但很多模型对基本的 Agent 协议都无法正常执行,综合质量和效率的平衡考量,Qwen-72B 的推理能力表现最好,而且几个月后且慢又升级使用了 Qwen1.5-72B。
据了解,且慢在早期通过开源架构工具打造了二十多个不同任务种类的 Agent,且慢 AI 小顾与用户交互的过程就是大模型自身能力与 Agent 体系配合的过程。
首先,且慢 AI 小顾要解决好用户的问题,必须能正确理解用户的意图,这需要大模型有很强的语义理解能力。通义千问大模型在训练语料上有高质量的标注和清洗,能够很好理解各种语言环境下的用户意图。
其次,且慢 AI 小顾为回答问题需要进行多轮的大模型调用,大模型需要从识别请求到完成任务进行一系列自行决策,包括调用外部函数或服务 (Function Calling) 的功能。例如,回答一个复杂的收益查询问题,且慢 AI 小顾综合用户问题以及结合系统能力进行动态规划,最终给出答案后,可以自主决定调用 UI 组件来“佐证” 自己的回复,以此来解决可信度的问题。而 Qwen1.5 在智能调用工具的能力上表现优秀,在公开测试的能力象限中显示优于 Llama 等大模型。
此外,用户与且慢 AI 小顾的问答并不是一问一答,而是多问多答,这就要求大模型在复杂的多轮对话场景下能够保证意图识别的准确性和连贯性,对模型的上下文窗口提出了很高的要求。通义千问大模型也一直关注长上下文理解的能力,最新开源的 Qwen2 增大了上下文长度支持,Qwen2-72B-Instruct 能够处理 128k 上 下文长度内的信息抽取任务。
最后,且慢对 AI 小顾的有一定的时延要求。基于通义千问 -Max 的且慢 AI 小顾性能得到进一步提升,但不足之处是时延略长,综合考虑之下,且慢在一段时期内采用了通义千问 -Max、通义千问 -Plus 的双参数模式来应对客户的不同需求,通过不同参数模型的结合,在低成本的前提下实现对大模型的精准调用。
比如,问“今天股市走势如何 ?”这类简单问题时,可使用参数较小的模型迅速反馈。当问到“过去三个月的投资收益如何,对持仓有何建议 ?”,可通过同时调用 Max 及 Plus 版本,得到全面、准确的答案。目前,且慢 AI 小顾已使用包含了 1000 多个问答集的知识库支持不同 Agent,覆盖投资知识、产品信息、功能操作引导等多种问题。
且慢 AI 小顾上线以来取得了很明显的效果,目前已为 2 万多个用户,解决超过 15 万个投资问题,问题解决率从之前的不到 50% 提升到 90%,用户在遇到基础问题后转向人工服务的比例显著下降。这不仅减轻了人工投顾的服务压力,使投顾可以更专注于提供高阶的投顾服务,且大大提高了问题反馈的及时性和处理的有效性。
大模型在金融领域的广泛应用,为金融机构带来显著价值增益的同时,挑战也随之而来,安全风险就是其中之一,比如合规、安全、伦理等多个关键维度,对金融企业的稳健运营与长期发展构成潜在考验。
在大模型本身而言,通义千问大模型构建了一个有效、可靠的数据管理及隐私防护框架,确保大模型安全评估体系的全面性,并且在公共云上还会用一些外围的内容安全产品。此外,通义千问模型每一次更新迭代的模型训练中都会引入一些安全、攻防语料,让大模型学会识别什么是不安全不合规的内容,然后拒绝回答。
而从外部层面,需要在大模型之上再施加一层工程化的手段来加固安全。比如应对提示词攻击时,尽管用户 A 成功让大模型认定他为用户 B,但在信息查询的指令反馈链路中可以对指令来源的登录账户进行核验,从而验证其真实有效身份,避免造成其他用户信息泄露。
随着大模型能力和安全能力逐渐完善,大模型在金融领域的应用也会涉及越来越多、越来越核心的场景。阿里云百炼大模型服务平台提供专属的 VPC( 专有网络 )、 用户数据全链路加密、数据不落盘等多重保护,满足金融企业对核心业务数据的安全防护需求。
未来,拓宽融合边界
且慢 AI 小顾已经可以“独当一面”,不过随着大模型迭代,且慢 AI 小顾会更智能——刚刚开源的 Qwen2- 72B,整体性能相比 Qwe1.5-110B 又取得了大幅提升,目前且慢已切换至 Qwen2 并上线运行了。
与此同时,伴随当前大模型版本快速迭代、技术快速发展,从长期来看,“适配”将成为一个新挑战——除了对新的大模型版本需要做一些提示词方面的适配工作,还需要考虑开源框架下的 Agent 体系与大模型能力的适配问题。比如,外界对 LangChain 高度抽象化的能力褒贬不一,在不断迭代的技术适配过程中,会给技术人员造成很高的理解门槛。
对且慢而言,在大模型实践的初始阶段,没有成熟的工具必须依靠自身来搭建,下一阶段的开发则会考虑外部工具平台,例如阿里云百炼平台,希望能通过一些方便、快捷、效果好的一体化搭建工具,诞生更多 AI 小顾这类应用。
比如,且慢要切换使用同一版本的不同参数模型,或者从 Qwen1.5 升级到 Qwen2,在不同版本之间的切换,在百炼平台上只需要更改 API 参数,一行代码就能完成模型切换,非常方便。但如果是用外部开源框架工具就复杂得多。
此外,阿里云百炼更是一站式平台,除了通义系列商业化和开源的大模型之外,还有诸如 Llama、ChatGLM、百川等市面上主流的大模型和垂直领域优秀大模型,从选模型、调模型、搭应用到对外服务,一站式搞定。开发者可通过“拖拉拽”的简易操作几分钟开发一款大模型应用,几小时“炼”出一个专属模型,玩模型就像搭积木,把精力专注于应用创新。同时,百炼内置丰富的 Prompt 模板,支持基于 LLM Meta- prompting 的智能优化,用户可用几句话简单陈述需求,无需费心调试 Prompt 工程。
目前,盈米在其他业务上也在积极尝试。比如,针对内部用户做了投顾副驾,辅助客服和顾问更好地回复用户的问题以及进行一些日常工作。未来随着 AI Agent 的发展,客服和顾问的角色有望慢慢变成一个“质检员” 的角色,检查 AI Agent 的工作结果是否可以直接采纳。
效率提升方面,盈米做了一个 GPTest 工具,可以让测试部门直接用自然语言生成自动化测试 Case;以及利用 AI,根据 Figma 设计图,直接生成高可用的前端 React 代码。
在且慢的投顾业务中,大模型与本地金融业务深度融合,可以帮忙有效解决投资者教育问题,以及用户投资方案的规划、匹配问题,以及投后的服务都会有所提升。在 “且慢”之外,盈米基金计划将 AI 技术应用于稳行、蜂鸟、启明业务中。其中,稳行是 toC 的保险业务,蜂鸟是 toB 为专业资管机构提供数字化解决方案业务,启明是 S2b2c 通过提供前台展业系统、投顾服务系统,为理财团队 / 金融机构提供一站式服务业务。
从金融行业整体来看,银行、证券、保险等行业均在尝试将大模型与核心业务进行融合。比如,保险行业接入通义大模型,在客服、理赔、营销等场景实现效率飞跃,每日调用超万次,显著提升客户满意度 ; 银行行业接入通义大模型替代传统人工座席呼叫,提升了企业运营效率 ; 证券行业接入阿里云的通义大模型智能投研、文档分析、金融信息搜索引擎和智能资讯服务,覆盖财报、研报、公告等多个方面,为用户提供全面而深入的金融信息服务......
大模型的能力应用的广度与深度将不断扩展,如何打造更有价值的金融大模型应用,对阿里云和盈米而言,道阻且长,并肩前行。