内容介绍:
一、AI在智慧出行领域的应用探索
二、AI加持客服全链路解决方案
三、哈罗智能客服的大模型应用
四、大模型在C端与B端的应用探索
五、企业内部大模型构建与运营
本次分享的主题是Jarvis×百炼,打造大模型智慧出行客服,由哈啰集团高级算法专家郭佳盛分享。
本次将分享我们是怎么布局AI的以及哈啰是怎么一步一步的把大模型运用到实际业务场景当中的。哈啰一直致力于打造AI智慧出行,所以在这里和阿里有着非常多的深度合作,一起构建了非常多的智慧出行的解决方案。
一、AI在智慧出行领域的应用探索
在实际的落地过程中,遇到了非常多的问题和难点,我希望在今天能够和大家一一介绍一下,并且能够对大家有些帮助。
哈啰一直保持着一种克制,并且全面拥抱大模型的态度去做这个事情。我先带领大家认识哈啰,哈啰一路走来已经有八年的时光了,从最开始的做最后一公里的本地出行全生态以及到现在的本地生活服务。我们的业务可以分为两块,一个是基于硬件的服务,包括日常生活中看到的共享单车,智能电池,智能换电柜,智能猫屋。以及基于互联网双边交易的哈啰打车顺风车,哈啰租车还有哈啰的电动车。哈啰一直致力于以AI加速出行的进化,所以在AI领域的布局这块,我们今年在内部构建了一个假鱼式的大模型平台,模型涵盖了市面百分之90以上的主流大模型。算法同学可以通过简单的拖拉拽的方式,而这和白练平台其实比较相像,可以快速的完成Agent的应用。
在大模型胚胎上,构建了三个场景化的机器人。一个是面向公司内部的,它主要是通过办公,以及运营提效全方位对公司内部做提效。
第二个是交易机器人。交易机器是直接面向业务场景的,它主要通过售中,售前,售后的全链路的大模型加持,直接赋能业务,提高它的GMV。
第三个是光子引擎,光子引擎是通过纹身以及纹身图的方式去生成图片,素材以及智能文案,并直接赋能营销。
在这个过程中,贾维斯平台和阿里云的白领平台也做了非常多的生态的紧密合作。我们借鉴百炼平台也做了很多的推理优化,单卡的QBS比最开始的已经翻了一倍的能力支持,另外在推理框架上,我们还做了很多的评测,训练模型的部署以及安全监控。
接下来介绍一下什么是交易机器人。前面讲解的机器是直接面向业务场景的Agent服务。我们通过端到端的场景交互,就能直接为用户提供租车,导购机器人以及出行机器人。在受众时,会通过大模型,以及结合多模态的能力,做各个业务场景的判决。比如我们会判断用户在做订单取消时是平台的责任,还是用户的责任,在两轮时,我们可能会判断用户,而且现在单车还不上,到底是因为定位偏移还是用户的责任,而售后就是基于AI引擎的智能客服机器人,并通过AI来解决传统客服机器人智能卡顿的问题。另外一块是我们会用大模型的Copilot能力,全面的加持人工助手。通过人机结合的方式让客服能够更高效的完成工作。
二、AI加持客服全链路解决方案
接下来是哈啰客服的成长之路,同样哈啰也分为三个阶段,第一个阶段是把数据做一个线上化。第二个阶段,主要是把客服加到AI方面,在这块主要是通过流程发布的方式把复杂的业务流程以及多人对话做一个支持,在这块算法能够做的是通过深度学习的方式把人体的意图识别做一个提高。在今年年初时,我们在内部做了一些知识的治理。并把三端做了统一,即把IM端,app端以及h5的各自的解决方案做了一个统一,也正是基于知识的统一,才让我们在这第三阶段以AI为驱动顺利做成人机的结合。
人机的结合是如何做到的呢?可以看到AI加客服,即我们当前大模型是如何加持客服全链路的,可以看到当用户从C端进线时,首先会做一个知识的检索,知识完检索之后,会做一个意图的管理和识别和管理。紧接着DM会做一个路由分发,然后去分发做走判者处置的Agent或者走咨询回答的Agent,以及意图澄清或者去转人工。
用户还有一个高阶的智能客服,因为解决方案其实每个人都是一样的,当大模型会发现洞察到某个用户其实有投诉的风险,或者是说有流失的风险,他其实会去做一些动态的策略化升级,可能会把用户比方说电单车的距离范围从50米变成100米,他也会去。或者是给用户送一些优惠补贴去提高他的LTV。当用户还是无法解决问题时,就会流转到人工这一块,我们通过大模型提供了一个全链路的一个人机结合的Copilot的能力,这块就可以大幅度去提高做题的效率。我们来看一下什么是初阶机器人,我们定义初阶的智能客服机器人其实是一个基础能力。后续所有的机器人都从这上面做的衍生。我们的业务其实是偏流程化的,业务主要是流程化处置,很少有用户来哈啰询问,说他要咨询某个问题,往往都是要去做一些判决处置,因此当用户进来时,去识别用户的意图,并且根据用户的意图去做一些流程化的处置是我们非常重要的。所以我们把机器人分为四块,第一块是知识检索增强,第二块是DM的意图,管理识别用户的意图,然后要去纠正用户的意图,以及识别他的多轮对话。第三块就是判责处置这块就是一个Agent的服务,我们要去能够让大模型有自主调用工具的能力,并且还能够去把它的结果返回给我们的下一个Agent的模型去话术回复的任务,我们话术回复任务会基于判决结果,以及用户的信息,还有问题去做一个回答。也就是全链路流程这块比较特别的,就是在这块推理这块。哈啰其实使用了trick的方法,就是在其中添加了小样本的一个思维链的方式去加速,就是大模型的推理的准确率。第四块沉淀了非常多的案例,模板和viewshot,这块可以高速让模型一个推理速度更加准确。我们来这块的一个案例,当用户询问比方说这个用户来问说持卡了为什么还扣费,大模型就会告诉他你是因为什么原因,下次要注意什么,当客户询问锁为什么关不上时,这块就会比较特殊了,业务会希望大模型先去引导用户,把它停到指定的点位。如果发现指定点位还是无法停的话,模型才会去帮他做一些工具的调用,帮他去做一个结费关锁。
然后是高阶智能机器人,让大模这块是我们在想的如何让大模型拥有不同的处置权利,是高阶大模型要做的一件事情。我们希望大模型能够去洞察用户。同时,我们能够根据洞察的用户去定义大模型的角色。然后让大模型能够有不同的方案和角色去安抚用户。这样大模型就有权利去选择不同的处置方案来应对不同的用户。
三、哈罗智能客服的大模型应用
前面介绍到我们哈啰在今年也启用了自建的工作台,用户在进线时,从他的坐席的分配,服务的引导,摘要,小结以及工单流转的整个流程,其实都用到了Copilot的大模型能力的加持,可以看到在右下角这块,通过大模型的AI群加持下,整体的工单时长以及它的ATT得到了一个大幅的下降。并且以看到这个趋势是非常明显的。而我们今年内部也自研了AI,结合大模型以及ASR的能力,对智能客服全面的会话,做了一个全量的质检。全量的质检包括三款,一块是判断坐席是否按照我们设定的业务流程去做SOP的流程回答。另外一块就是看用户有没有命中一些辱骂等一些关键性的敏感词标签。我们也会用大模型去做一些解决方案的总结看线上是否有存在一些问题,以及是否有优化的解决方案。我们可以看左边这块就是哈啰智研ASR加通用文本标签识别做的一个落地的一个场景,目前已经在热线语音质检完全落地了,它的效果还是特别明显的,准确率可以达到80。另外一块就是流程性质检,流程性质检就是以满意度为主,我们不再是去看用户的通用的文本的标签,而是要去识别。
在一种对话中,坐席有没有按照我们的要求去回答用户。比方底线是用户不能辱骂,不能命中一些敏感词,他如果能够按照我们定义的SOP流程去回答,就是比较一个符合及格的状态。
如果说坐席还能够有一些同情心安抚心去安抚用户,我认为这个就是比较一个优质的回答。以前我们都是做人力抽检的,每次只能抽线上1%的样本,其实这块是很难去发现线上的问题。
我们也无法去对坐席有一个比较好的绩效考核和约束,通过我们大模型的全量的予以质检之后,在整体的用户满意度其实得到一个比较好的提升。
前面说到引用了现在已经是大模型微引擎的智能客服,大模型为引擎的智能客服它到底有哪些不同,或者给我们带来了什么。我总结一下,新版的大模型客服是以人工为主。算法可以去逆向整个链路流程。最明显的可以看到以下面这个图为例,在早期算法只能去做意图识别。
后期所有的对话管理,判责,处置,赔付整个的流程其实都是运营通过人工去配置的,算法是很难去介入的。
在新版的大模型其实不一样,因为所有的动作都是以大模型为引擎去触发的。模型会去做语义的识别,意图的理解,模型会去做对话的管理系统的判决以及赔付的处置。另外一块发生比较大的变化,其实就是运营形态的变化。哈啰其实智能客服和前面两位老师讲的不太一样,就是我们比较激进。我们完全放弃现在市面上流程性节点的种方案。左边是我们原来的方案。我们新版的方案就是完全以AI为核心引擎,完全以文本的形式来驱动,没有任何的流程性编排,我们觉得这样做,它能够更灵活的支持我们所有的一个需求。当然,这块对运营的要求也会更高,需要他输入更加规范的一些知识,对大模型的理解也会要求更高。
新版的大模型让我们明显感受到了在拟人化和理解力上,大模型得到了一个质的飞跃。另外一个很重要的点是可运营,因为哈啰的业务一直在上升,也一直在变,变化人员也一直在流通。
四、大模型在C端与B端的应用探索
我们以前运营都是在原有的基础节点上做一些新的修补,这导致很多场景都出现了成千上百个流程节点的不可维护,并且也没有人知道里面到底有没有存在问题。换成大模型的方案之后,现在运用只要10到20行就可以把原来成千上百个的节点做替换。还有坐席侧通过大模型提效,原来的坐席人员是需要去做培训,他需要去到坐席工作台去做检索,才能够回答用户的问题,但是现在不一样了,他只要根据大模型的引导,一步一步的去做简单的操作,就可以快速的把一通会话的问题解决。在这个过程中,我们其实也遇到了非常多的问题和挑战。我们总结下来,其实有三个关键点,一个就是大模型非常重要。另外一个就是知识的沉淀也是非常重要的。我们要有一定要有一个严格的或者规范化的知识,才能够让模型去理解。另外一个非常重要的就是大模型要把它做成一款可运营的一个产品,它才可以是一个能够在企业中可以去做落地。
现在归类大模型在C端场景,首先需要依托大模型去做多轮对话。还是真正意义上的多人对话我们,然后我们要依托大模型去做这些SOP的流程的自动化执行,处置在B端,我们需要用大模型的Copilot的能力去做这些服务引导。前期遇到最大的问题就是模型的准确率以及时间成本耗时的问题。因此,我们把内部沉淀下来得到三个方法论。第一点是让模型可以做事情,让他能够理解知识,能够按我们的要求去做。第二点就是模型可以理解,做事情之后,你要让模型低功耗的运行起来。第三点是它低功耗的运行起来之后,我们就要让模型可以去做持续化的运营,它就可以不断的去加强这个机器人的能力。
现在回顾大模型的演进之路,这是我们不同阶段的一个进度在最开始第一步就是用了最牛的模型以及最简单的方法就是functioncall的方式去验证这个事情是不是可行。
判断模型可不可以帮助我们解决,确实GPTCopilot是非常强大的,包括直接用它的functioncall都可以做一些较好的工具调用以及回答。但是它也带来了非常多的问题,在信任和耗时上是我们是无法承受的。之后我们就用到了国产的QWen72B的模型。我们引入了Re-Act思维链的方式,去把这个准确率从72B的准确率做到和GPT4o基本上是持平状态。
并且把大模型的链路去拆解的多个Agent的服务做一个串联。这样可以大幅度的降低耗时以及工具的调用的准确性也能够得到比较好的提高,在阶段二其实整体的效果会比阶段一已经高很多了。然后当我们发现大模型确实可以给我们带来非常好的业务效果,我们就把从单车扩大助力车再扩大顺风车,我们发现一天的调用量已经到百万级别了。我们就在想,该如何让它能够低功耗的运行起来,很自然的就想到原来是72B我们就要选到一个更小的模型,就是7B。像现在也有3B和5B,我们可能未来也会向更小的模型去发展。通过7B的模型加人工标注,微调了一个属于哈啰的大模型客服,使它的整体耗时,在一到两秒就可以快速的做一整轮的推理。另外一块是在阶段中怎么样让模型可以可持续化的运营?只需一个作业标注,通过作业标注让运营可以持续化的反馈模型,让模型向更好的方向进化。
五、企业内部大模型构建与运营
我们让模型做的第一个事情是意图识别,我们认为一定要有质的飞跃,模型要能够基于上下文去理解用户,支持从单轮到多轮的升级。因为一方面大模型是需要针对用户的表述做引导。然后再做意图的管理。同时还发现要结合传统的收推能力,做一些个性化的深层次的拆问的输出,而用户就会更喜欢去点这些问题。我们发现用户咨询的query往往并不是他的问题,也不是他真实的意图,你需要去结合用户当前的订单信息状态,信息,或者是上下文,才能够准确的理解用户定位到他真实的意图。模型能做事情的第二点就是要让它能够稳定的去执行运营设定好的SOP流程。这块我们其实做了很多的一些探索trick,前面介绍了引入了思维链的方式,就把它的准确率做到了95以上,现在可能更高,基本上可以百分百的完全按SOP流程执行。我们来看到这块是怎么做的,其实就是把它拆分成多个不同的Agent。先让模型去做推理判断,判断他现在处于哪个知识,哪个知识步骤,环节,以及是否需需要去调用知识,如果他需要需要去调用工具,就比方说要去调判责的大模型,或者去调业务判责的处置接口,于是会对齐接口,然后返回的答案和思考的步骤一起反馈给下一个大模型就是深层次的大模型,大模型会去结合这三个步骤去做引导的流程性选项或者退款处置或者回答。
前面介绍到低功耗的运行,认为让模型低功耗运行其实就是围绕了怎么用国产小模型加一系列的推理执行或者拆解模型的能力,让它可以去代替市面上最强的模型。或者现在刚发的4o1,这块最主要就是要训练属于企业内部的一个大模型,另外一块就是要去不断的去提高我们本地推理优化的能力。包括使用VLMS或者lmdeploy不断出现的开源框架。另外一块就是如何让模型可持续化运营,我们认为这块是非常重要的,这块也属于探索阶段,我们的目标是希望让大模型的能力可持续化是一个闭环。其实运营的同学能够去维护知识库去录入知识,质检同学能够去对不同的作业去做一些标注。然后把他的数据返回给算法同学,算法同学去做大模型的一个反馈,或者是微调训练。
我们认为在探索过程中发现去建设大模型的周边工具其实是不可或缺的。因为我们前期非常多的时间是花在运营,他会把我们以前的知识不规范的录入。因为模型是需要去调用工具的,它需要根据字段工具的描述去做结合,但是因为运营它会随便的配置,导致知识和工具是不兼容的。所以在这块我们前期做了非常多的一个适配工作,因此在这块做了一个质检服务,就是在前期运营录入支持时会有个过一个质检模型。质检的大模型会对知识去做一道检测看是否有问题,如果他有问题,我们会做一定的改写,当然这块就是要运营去采纳。另外一个是大模型要去调用工具,工具要有描述,字段也要有描述,字段和描述怎么和工具字段和描述,怎么和知识去做关联,也是通过这个大模型来做一个质检。
还有一个是重塑了一个作业的过程,在坐席领域可以看到坐席会采纳和编辑生存话术,所以我们把坐席采纳和编辑的话术都把它做了一个买点直接反馈给大模型训练。我们一直认为数据可以让模型向更好的方向去进化,而大模型的技术也一直在进化。哈啰也一直在不断的探索和尝试,去努力的追赶上这波AI的浪潮。