多端融合,打造最优落地效果的多模态百炼

简介: 本次分享由阿里云智能集团飞天实验室资深产品专家江潇和科学家胡露露主讲,介绍了多端融合的多模态百炼产品。内容涵盖多模态模型的优化、生产力和产品力建设、RAG能力升级、终端大模型场景探索、内容安全和生态应用等方面。百炼已支持多模态模型调用,提升了模型效果和应用效果,并在安全性、模型优化和终端部署上取得了显著进展。

内容介绍

一、topic是如何打造最优效果的多模态百炼

二、在最新的百炼版本,是如何建设生产力和产品力的

三、在这次升级中,rap能力的升级

五、在内容安全里的工作

四、在终端大模型场景上,基于百炼做的探索,以及场景的实践

六、在模型能力增强或者生态应用里的工作

七、基于终端模型结合的消费链,以及手机PC、车机器人等能力

 

本次分享的主题是多端融合,打造最优落地效果的多模态百炼,由阿里云智能集团飞天实验室资深产品专家江潇和阿里云智能集团飞天实验室科学家胡露露分享。


阿里云百炼从去年5月份开始到现在已经有一年半多的时间了。在这个实践过程中,特别感谢我们的企业客户,还有开发者朋友们能够和我们一起成长,来给我们提出很多优秀的产品建议,帮助、见证了产品的快速发展。目前阿里云百炼这款产品已经有三十多万的客户进行了产品的注册和使用。在此还是向大家表示最诚挚的感谢。


今天会给大家带来很多优秀的环节分享,也非常感谢各位的嘉宾能够带来阿里云百炼在实际应用落地一些成功的案例。同时产品经理、算法专家,也会带来一些技术的分享。希望大家能够在今天下午这个宝贵的时间不虚此行。



 

一、topic是如何打造最优效果的多模态百炼

将分为四个方向为大家进行汇报。


首先百炼产品从去年到现在有一年多的时间了,也陆续发布了很多重大的版本。在去年10月份的时候,百炼重点推出了模型服务和应用服务的双引擎,大家可以通过阿里云百炼的mas的平台产品调用像通义千问的系列模型。通义万相的模型包括很多合作伙伴的模型。另外一个是提供了针对agent服务,以全套的应用构建的工具,包括全链路的模型开发工具。大家可以在百链上面进行相关的模型调优和模型的训练工作。另外一个是随着整个大模型应用落地的发展,会发现在去年百炼在业界也率先尝试了rag应用,在实际客户场景进行落地。当时我们做了一个相当于封闭的最佳落地实践。但随着整体的大模型发展,随着实际客户的需求的反馈。会发现在当前的大模型时代,更多的应该做更多的开放性、灵活可配置的能力。基于这样的目标,在今年的五月份,阿里云百炼的2.0发布了基于开放的lamy dest研发框架。同时兼容了OpenAI的assistance API,通过这样的方式百炼变得更加开放。


在今天,其实是过了半年多的时间,百炼又持续打磨了一个新版本,接下来为大家做一个详细的解读。首先在这一年多的时间,百炼在阿里云的定位一直没有变化,甚至是逐步的夯实。阿里云百炼作为MaaS的服务底层,基于阿里云AI的计算服务的as和pass能力,承载了百炼这款大模型平台产品,再基于百炼整体的能力衍生出了两个生态。


首先左侧的是应用生态,打开百链之后,很多阿里研发的官方的应用产品。比如通义晓蜜的机器人,比如西安的JBI数据分析。另外还有一个是已经陆续、上架在三方的应用。大家现在看到百链其实也能够看到已经有三方的应用,在百链做对应的露出和使用。


第二部分是模型的生态。在今年5月份的时候,百炼还是以千问和万向为主。现在百炼已经把多模态的能力逐步上升到模型广场。大家可以调用百链的多模态的服务,像语音的合成、视频的理解和图片的生成。


通过这两个生态的建设,目前百炼已经完成了多模态模型调用服务的产品定位。在这一年陪着开发者和客户落地的过程中,会有一个直观的感受,即大模型到现在已经进入到深水区的环节。之前大家对于模型的要求是模型效果好不好,要求的是模型的生产力方面的需求。包括模型服务是否响应足够及时,以及逐步的随着多模态能力发展之后,客户希望百炼能够扩充我们的模型,并拥有在模型的生产力的基础之上,现在能够看到大模型在往产品力上面也提出了更多更好的需求。比如多模态的模型,能不能够适配agent或适配现有的模型开发工具链。


第二个是现在的开发工具到底能不能够满足日益增长的客户需求和生态。比如预训练或模型调优的能力。另外一个是比较核心的安全工具,现在百炼在这一个版本也增加了很多安全的场景和解决方案。最后一部分是效果。之前要的是模型效果,现在要的是端到端的应用效果。所以在整个大模型的产品力上面,百炼也做了很多优秀的功能,然后做了对应的升级。基于大模型的生产力和产品力,我们相信能够一起打造出一个最佳的企业级的应用效果。

 

二、在最新的百炼版本,是如何建设生产力和产品力的

这是最新的百炼产品架构图。从看到从下往上,优先支持了多模态的模型,并给全链路的模型开发工具做完美的升级,以及agent开发工具也做了对应的提升。在整个的价格上可以看到,增加了一个效果。运营中心为什么会有这样的功能沉淀?其实是希望在当前的深水区,能够给大家提供足够丰富的效果工具。来保证模型的效果和应用效果的构建。


1. 在生产力和产品力上的具体工作

如果今天打开百炼,能够看到百炼的全新界面,是基于大语言模型和多模态模型的构建。这里给大家做了详细的解释。像文字、图片、视频、视觉理解、语音识别和语音识合成,还有开场的动画,都能够在百炼里面去体验,然后在百炼里面完成相关服务的调用。并在生产力这边能够看到多模型的多模态能力,都已经能够完美的适配到工具中。比如agent的智能体,也可以基于视觉理解,然后来创造多模态交互的智能体。另外一个是智能编排,也支持了基于文本视觉和语音能力的集成。最终包括了模型的微调和评测,同时也已经完成了业界首家多态能力的集成。


第二部分是效果运营中心。这部分到底是如何落地的?需要完成一个大模型的效果提升,主要分为三部分。第一部分是整体的效果要做到可追踪。第二部分是整体的效果要能够有非常便捷易用的分析工具来实现可分析的目的。有了追踪,有了分析,最终还要提供一系列的工具,来进行干预,来提升最终的效果。所以这三步是现在再做大模型效果提升的核心方法论。


2.大模型效果提升的核心方法论

首先是效果工具,在跟客户沟通的过程中,大家提到的反馈非常多的诉求,即整体的效果工具可以实现tracing log的全链路追踪和监测,而且每一个节点都可以进行监测和落地的执行。包括现在相当于是延迟输入输出tokens消耗、模型的动态效果,都可以通过这个工具来进行对应的监测。


第二部分是干预,大家也都知道prompt其实是我们现在在调用大模型的API,以及实际落地里面非常重要的环节。我们之前都是通过手动写API。另外一个是百炼,它提供了prom的扩写,即提示词扩写能力。帮助大家去写一个能够有足够好的效果,写一个能够有落地实践的能力提升的prompt。在初级的能力之外,又扩展了两层核心的深度能力。比如现在在这里面提供的ICL的样例的扩充。稍后这部分也会由算法专家为大家解读里面核心的技术能力,它是如何实现的?


那这里给大家简单的提要一下ICR样例扩充,即用prompt的方式。然后大家可以输入3到5个相关的、对应的QA。之后Prompt根据这个结果,给出最适合当前场景的提示词能力。再往下深入是基于当前的端到端业务效果,它提供了标注和评测对应的能力。这部分能力我们也可以再返回给prompt,然后让prompt再给出来更近优化之后的提示词结果。除了在整体的prom的提升之外,大家也都知道在现在构建agent,其实大模型不是万能的。


在当前的状态下,提供了两种不同的能力编排的产品方式。第一个是工作流编排。工作流编排其实很简单,即把我们的SOP流程用规则的方式告诉大模型顺序的做对应的执行。这其实也是一个接代码的方式。第二个是现在可能会构建很多单体的agent,它如何能够和实际的业务场景进行结合,如何达到最终的效果。所以它提供了对应的多agent的智能编排能力,即现在百链既支持工作流的编排,又支持多智能体的编排。大家也可以把这个能力应用到实际的落地效果中。

 

三、在这次升级中,rap能力的升级

百炼的rag做的时间已经非常久了。在经过一些对标的评测能够发现在友商的对比评论中,百炼的rank效果也是非常不错的,那么为什么要做自己的rag升级呢?还是要回归到本身产品的痛点。首先企业知识的管理复杂。另外还有一个是在当前阶段rap的搜索精度,模型的生成幻觉以及端到端的生成的满意度,还有很大的提升空间。还有一个是不管是现在做的rag,还是做的产品力,都要和企业的实际的业务系统做对接。那么如何能够降低这部分的对接成本,其实也是我们需要考虑的。所以又提出了开放性的要求和灵活配置的要求。在这里面,百炼的这次升级从企业数据应用效果和企业管理这三个维度都提出了对应的解决方案,最终实现了企业数据的可管理,应用效果的可调优可干预,以及整体管理的可观测、可运营。


第一个是rap升级之后,它开始支持多元异构数据,包括云上数据库、本地数据库以及网页解析数据都可以完成对应的支持。同时多模态的数据,像文档、图片、视频、语音都可以支持,用现有的rank链路承接。并增强了互联网搜索,即实时检索对应的能力。


第二部分是在效果可干预和调优这一部分,通过meta data增强和创客切分的方式,来提升整体的搜索精度。同时通过一些过滤、恢复召回来降低整个模型生成的幻觉。现在rag也提供了自动化的评估,这样就能够提升端到端的满意度。这一部分也会由算法专家为大家解读在整体的rag领域到底是如何落地和实现的。


最后一部分是在当前的整个业态,大家比较关注的安全的解决方案是什么?在大模型的安全相关的产品能力有哪些?在这一年的打磨中,百炼目前有了很多不同的适应不同场景的安全解决方案。这是我们从用户账号、数据可控层面、模型的独享独占层面、链路可信以及操作可审四个方向,为大家去把整体的安全方案来做了对应的落地。同时,百炼的安全方案解决白皮书,现在在百度的官网上面也可以查到,大家可以关注并下载和阅读。基于这部分的安全能力,在国际首个人工智能管理体系ISO的标准认证,百炼现在已经拿到了。


另一个是针对当前客户多模态,或客户的安全多端可信部署的需求。目前百炼有这样几种部署形式。第一个是公共云的VPC,第二部分是金融云,第三部分是政务云,即可以选择公共云的这样几种方式来实现百链产品的可部署以及可调用。这就是当前91900炼做的产品对应的最新功能的发布。大家如果关注到刚才的这个论坛,其实也能够看到CTO周静仁老师也发布了基于百炼的通义大模型的降价。我们也希望借助这样的机会,能够快速的或更好的以及用更加具有性价比的方式通过百炼完成大模型能力的调用以及整体大模型能力的建设。

 

四、在终端大模型场景上,基于百炼做的探索,以及场景的实践

首先把过去半年、一年的热点工作给大家做一个汇报和分享。


1.在整个行业里面的终端场景相关的机会

苹果最近在终端得场景上做了大量的尝试。对我们来讲,我们自己也在这个技术方向上做了一些基础的布局。在这个布局中包含了在这个场景里面的探索,以及在这个场景里面做得大量的一些基础的一些工具和一些相关的一些产品。从行业的整个需求上来看,目前整个和终端相关的场景,大量的还是集中在比如图片的搜索,文本的检索和输入法的改写等一些和用户的隐私和安全相关的场景。在这个场景中,绝大部分的客户都会涉及到本地的数据和安全的相关问题,所以在这个场景中对终端的模型会有一个非常强的诉求。以此为基础构建以终端AI结合云端AI为主的模型,能力整合的产品是我们看到的未来终端AI发展的非常重要的方向。所以把大量的千问相关的模型和VL相关的模型,结合芯片厂商和手机厂商,PC厂商等核心的能力,在本地再结合云端,以百链为主的云的能力做一些非常强的能力的整合和补充之后,完成了一个基于端到端的终端的AI phone、AIPC或者AI car等产品能力的整合,对我们来讲现在支持的模型种类上,主要分为几类。第一个类别是以语音、图像和代码等多模态为主的模型。


那么这些模型都会对应的一些开源的版本,也有对应的和芯片和厂商能力做过非常好的融合后的版本。以语音模型为例,语音的模型支持,包括audio、cos voice等模型。这些模型在端上都会有一些对应的产品能力的形态。在场景中端到端上,整个场景还是以语言模型为主的产品。在语言的模型尺寸上支持0.5B、1.5B以及3B的模型,以及72 千万的7B的不同尺寸的模型,面向不同的终端和不同的场景,7B更多的是在PC的场景,或者高端的智能汽车的场景会使用。以及手机和中等级的PC。更多的是以3B、1.5B等的模型来服务客户和场景。这是在端侧的模型能力上的技术布局。


当然在以终端为主的场景上,面临了一个非常大的挑战,把它归纳为四个。第一个核心的要素是模型的性能。这个性能不只包含模型本身的各方面的在下游任务上的表现,更多的还会涉及到模型本身的推理,以及模型的prefer decode的速度,在很多的核心场景上,资源是非常受限的。以一个手机为例,在一个手机上,空余的内存是相当有限的,可能绝大部分的手机的配置都是8G到16G或者就是大概的范围内的内存。以1.5B的模型为例,1.5B的模型做完英特斯的量化版本之后,它要占据将近4G左右的内存。当然这是在2K到4K左右的content size的维度下,所以对传统的手机和PC会有非常大的挑战。这个挑战代表着他们需要升级内存带宽,以及内存的颗粒等,进行非常重要的配置升级。


另外一个是他们会非常关注模型的效果。因为1.5B的模型效果整体来讲,相比于云端动辄几十B、上百B的模型,它的能力差异还是蛮大的。所以在特定的场景上,怎么把它的效果做的比较好,这也是比较关注的课题。还有一个是资源的使用。在资源的使用上,以及主流的场景上,一般会要求工号的场景在mall的场景上,会有一个非常强的诉求是不要求他高于3万,在对很多的推理的加速是一个非常重要的挑战。另外也会用一些异构的加速技术,大量的消耗比较大的模型,从而走NPU,或者在CPU结合NPU的方式,把CPU的核降下来,把整个的资源空闲留给更多的用户的核心的kilar APP场景。之后还会比较关注的一点是关于模型本身的扩展,光有模型肯定还是不够的,在基础的模型之上,模型的周边涉及到的能力,不管是方生靠能力还是和周边的应用打通的能力,你要构建基于IM的agent就必须要具备在这方面的能力的可扩展性。而且需要具备相当好的扩展性,才能够达到相关的工作。所以在这里也做了一些技术的能力拓展,来支持对三方应用的拓展,其中最重要的一点是安全相关的点。安全不只是模型本身的安全,更多的还涉及到模型输出的内容的管控,敏感词,安全词相关的内容扩展,以及包括因为模型尺寸也非常大,那么模型的本身的升级和能够快速的叠加的点,也要和终端厂商做良好的配合。所以把整个终端模型在智能体,或者智能的硬件设备上的整体挑战,归结为四个类别,而所有的技术工作绝大部分也都是围绕着这四个场景,或者四个难点做技术的突破。


那么具体做了哪些实际性的工作呢?这是一张比较全的图,这张图包含了从底层的推理,以及模型的加速能力。以及和推理引擎的深度、芯片的整合,以及和端云协同相关的能力整合。因为这张图实际上比较复杂,它涉及到四个点。最核心的一个点简要的给大家阐述一下。对我们来讲,其实会特别关注模型的推理性能和推理精度战略之间的平衡。对很多模型来讲,做完int 4之后,它在很多下游任务上会有非常大的损失。所以做了很多的实验,来探索这个损失到底是发生在哪一层,即怎么解决类似的问题。所以基于模型的任务的量化和基于混合精度模式解决了类似的问题。并做了一个实际的结果,即基于千位1.5的in 4的版本,它相比于原始的模型基本的精度损失不会超过1%,所以这其实是比较重要的工作。


另外一个是基础模型是不是能够满足实际场景,这里列的是千问二的相关数据。实际上昨天晚上已经发布了千问的2.5,那么有一个基准的benchmark可以作为参考。根据最新数据,即千问2.5的3B模型和千问1.5的14B的benchmark基本上是能够持平的,千问1.5是今年四月份左右的时候发布的,现在是十月。六个月过去后3B的模型基本上可以对比到14B的模型。所以这是很重要的基础。srm小尺寸的模型在核心的能力上已经表现的越来越好。所以在这里有很多的重要的评测指标上,尤其在类似MMU的指标上已经有一个非常大的提升,在实际使用过程中,包括实际的下游任务里经过一些特定的场景微调后,它是不输于云上的大模型,这也是一个很重要的基础。


在此之上,因为端侧的模型,或者和智能终端相关的模型。它其实是和芯片体系或者推理的体系有一个非常深度的整合和绑定,我们和非常重要的合作伙伴在芯片方向上的合作,包括高通MTK、英特尔和英伟达AMD等核心的芯片厂商。结合模型企业推理的优化能力,整个做好了非常完整的端到端的适配。这些能力也会在百链的平台上进行完整的能力和上架。这类似于和某一个核心的客户,基于CPU和NGPU的版本的全场景。很多客户已经在这个能力上做了一个上限,它的基础能力里面包含了短信的提取、通话的内容提取,自动的AI通话,以及文件的总结和摘要,在客户的重要的评测的指标集上,一些SRM的能力都可以满足客户的全场景的使用需求。在功耗和性能,以及资源占用方面,也达到了客户的完整的能力的体验。那么对应的能力也会发布在白领平台上,这里也讲到了很多跟智能终端相关的场景,当然终端能力也非常重要,但是端和云的结合一直是行业里探索的方向。因为端侧的SM能力毕竟还是有限的,他在处理一些非常复杂的任务的场景上,与它相比云端的大尺寸的模型,还是非常弱的,所以我们也做了一套完整的链路。这套链路包含了基于观测的意图的模型和云测的更强的,像max或者更大的vout max的模型能力,把一些用户的任务进行了路由或者拆分,从而完成了端到端的综合的产品方案。


这里最重要的一点是会有一个更小尺寸的1.5B的意图的模型。这个意图模型可以满足绝大部分的用户的使用场景。包括在车的场景里面,它可以满足一些很重要的日常的语音交互,以及车内的控制等场景,它都可以满足。但是在一些闲聊或者类似于对知识的发散性或者密度性要求更高的场景上,会把它路由在云上,然后去完成一个更加好的对话类的体验。所以在这套方案下,完成了能力的整合和对关键数据的隐私和保护,做到了比较好的平衡这李,这是实际做的demo,当然这个demo里包含了完整的语音的输入和意图的理解,以及云端的planning以及最终的function calling等能力。实现了功能包含了在手机上、在车上可以通过语音完成自助的点餐订餐,完成日程的安排,自主的导航等。这里涉及到端和云,这是完整的case。当然这个case里可能没有视频就不展示了。

 

五、在内容安全里的工作

因为内容安全是一个大家都看不到的工作。但是实际上这里的工作确实是非常重要的。在这里包含了从模型的本身的巨大隐私的保护,以及模型运行时的安全状态,在这几方面做了不少的工作。在巨达这方面更多的还是要求模型要符合地域监管的规定。在这样的场景下,模型怎么做好针对客户的能力,以及针对通用场景。这里提供了一些我们自己的能力。在模型的隐私和本地的安全保护上面,结合了一些云的能力,弥补在端上能力,即安全能力的缺失,来保证在离线的环境下,能够有一个比较安全可信的的环境和安全可信的输出。

 

六、在模型能力增强或者生态应用里的工作

这里的工作主要包含文本检索相关的能力,文本检索是基础类的能力,这个能力是绝大部分客户所必须和他自己的场景依赖的点。所以基于端上的reg,它目前做的是开源生态和商业化产品,并且都做了不少的事情。但整体上来讲,大家还没有特别成熟。我们在方这方面也做了一些尝试。对我们来讲优势是包括evening的算法,以及recall的的精度,它们相对来讲比较高。从性能和多语言的支持,以及对数据安全和隐私方面也做了能力的加强。所以这套rag,包括纯本地的rag也是面向客户的生产做的设计。

 

七、基于终端模型结合的消费链,以及手机PC、车机器人等能力

这里算法的SDK,以及算法的调整,即微调的能力,包括安全性的能力,都会在百链进行一个完整的能力上架。包括了端云结合的这一部分,也涉及到意图的模型和云端的workflow等能力,都会在云端进行完整的展出。所以这块也会在云端有对应的产品露出。

相关文章
|
7月前
|
存储 算法 测试技术
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
269 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
在通用L0级语言模型基础之上,结合领域知识训练出适配各应用场景的专属模型,将成为企业经营的“智慧大脑”。 在广告投放这一企业核心的营销场景中,「营销领域大模型」已成为引领行业变革的关键力量,它将重塑数字营销的内容生产方式、投放工作流、消费模式等等,进一步推动营销生态的发展和进化,让广告主的营销内容更丰富、投放更高效、转化更直观。 近期,归一智能正式发布了AI Agent应用产品「归一妙计」,这是一款基于「利欧归一」营销领域大模型,训练出的适配各媒体平台投放工作流的SEMGPT专属模型,能够为企业提供更加智能、精准和高效的AI广告投手服务。
661 0
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12404 116
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2月前
|
存储 人工智能 自然语言处理
边缘智能的新时代:端侧大模型的研究进展综述
【10月更文挑战第9天】随着人工智能的发展,大语言模型在自然语言处理领域取得突破,但在资源受限的边缘设备上部署仍面临挑战。论文《On-Device Language Models: A Comprehensive Review》全面综述了端侧大模型的研究进展,探讨了高效模型架构、压缩技术、硬件加速及边缘-云协作等解决方案,展示了其在实时、个性化体验方面的潜力,并指出了未来的研究方向和挑战。
336 2
|
4月前
|
人工智能 异构计算
就AI 基础设施的演进与挑战问题之大模型推理中需要进行算子融合的问题如何解决
就AI 基础设施的演进与挑战问题之大模型推理中需要进行算子融合的问题如何解决
|
5月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
336 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
1334 1
|
5月前
|
存储 SQL 人工智能
|
5月前
|
机器学习/深度学习 数据可视化 Swift
Florence-2,小模型推进视觉任务的统一表征
Florence-2是一种新颖的视觉基础模型,具有统一的、基于提示的表示,可用于各种计算机视觉和视觉语言任务。