内容介绍:
一、大模型市场概况
二、全妙产品介绍
三、部分案例
四、全妙建设重点与功能介绍
主讲人
秦璇
阿里云智能集团飞天实验室资深产品专家
本场分享的主题是大模型在内容创作、数据分析、智能服务领域专题分享。
首先我们进入第一个议程:阿里云百炼|全妙:全面升级,助力伙伴推动产业落地。
这次分享主要分成两个部分,首先给大家介绍一下我们的产品定位、产品功能,以及和大家分享我们在做产品到行业、产业落地时的洞察。接下来半个小时会有我们的伙伴——武汉通威电子从作为一个分销的伙伴给大家分享怎么把全妙去推向他的客户,以及实现在一些领域的复制,还有如何在客户端实现相应的价值,这是整体的安排。
一、大模型市场概况
我们做产品的第一步看市场情况,对于AIGC或内容的创意创作,很重要的一点就是看它在所处的大模型市场是什么样的发展状态,有三点洞察可以和大家一起分享。
首先是基模“scaling law”技术曲线可能已经放缓。随着GPT3、3.5到4,再到5,到现在多模态的产出,大家可以感觉到速度没有那么快了,每次提升的百分比也没有以前快了。业界就推断基模发展曲线的斜率已经慢慢变缓,意味着大家要用这个技术去找更多的应用场景,把基膜进一步和应用结合,寻找产业落地的机会。这就扣到了今天我想分享这个题目上,自己做产品是自嗨,怎么样把它落到产业里面,支持到我们产业里去解决大家的管理问题,或者降本增效的问题才是我们所追求的。第二是说前段时间IDC发了一个最新的报告,全球AIGC市场的复合年增长率已经达到86%,而且到27年市场规模会接近1500亿美元,这意味着应用的空间非常大,增速也非常可观。不管是云化的趋势,还是在应用层的增长趋势,对我们来讲,不管是做产品,还是把产品集成后推到客户,还是客户自己用,对大家都意味着巨大的机会。很多报告都看到到2025年,通用人工智能会进入到massive adoption阶段。首当其冲的就是文本和代码的应用,它们起步最早,也会最先的用到应用里。很多的客户都很期待文生视频能够尽快成熟,但这块技术还有一些瓶颈,它生成的稳定性,能否及时、充分的表达人的情绪,还有生成时长都有限制。但对于文本和代码,它会优先的进入黄金期。正如右图所示,标记黄色代表它的成熟度,可以看见像文本、代码都已经到可以充分的应用落地阶段,具体怎么落是我们每个处在这个产业里的人要思考的问题。最后通过我们的力量把技术产品化,再把产品解决方案化,落到客户,打通通道,最终实现让大模型技术、AIGC能力能够赋能到千行百业,从而给大家带来好的效果。
刚才看了行业情况,我们再来看一下在产业落地时面临的问题。我们在从去年开始到现在接触了这么多客户,非常深有体会的一些问题点。比如在很多协作时,特别是商用产品里,大家都要求去除大模型味儿,因为大模型都会首先、其次、然后、最后,看起来很规整,但是大家就一眼认出你偷懒了,是用大模型写的。这就变产品在落地的时候大家使用时所产生的一种障碍。我希望大模型不带着这么生硬的痕迹,而且现在这些痕迹如果投放在某些渠道,直接会被屏蔽,比如投放在小红书里,小红书直接就鉴别出来了。大模型怎么写的更接近每个人自然的行文风格是很重要的。与之相应的是它一定要能够体现出使用者的个人特征,这也是用一款工具来为自己表达所必需的需求。并不是我希望这个工具怎么样,结果这个工具不听使唤,写的东西差强人意,还得勉强接受,这种状况也不能让产品很好的实现产业落地,这也是一定要解决的。从去年到今年,我们服务于传媒客户、政府客户,还有集团性的央国企,大家都很关心安全。我列举的这些客户都是非常注重模型的政治正确性,是否符合主流价值观。在营销领域,客户在对接时也说写的东西一定要符合广告法的要求,你不要在prompt里写一大堆的限制,然后执行。虽然现在模型输入、输出的token长度变长了,但每一次prompt都重启这么多东西也很费劲,能否直接在产品里把它做进去,让客户用的放心也是在落地时非常关键的一点。再是事实类的文体要尽可能的降低幻觉,时间、地点、事件都不能出错。如果服务于媒体,做一些快讯类的简报,经常涉及到时间、地点、事件。公文写作有专门的国标要求,国标里关于字体、字号、行间距,还有页面的宽度等都有要求,这些产品能否做到也是一方面落到业务里的要求。站在我们的使用者,特别是企业的角度,还有几个相应的痛点。比如企业想用大模型,但没有相应的技术人才做相应的PE,接不同的模型用的prompt都是不同的,可能这个prompt在这个模型里用的好,但搬到别的模型里的效果就差强人意。模型在不断的升级还需要不断更新接口,然后调prompt也很麻烦。特别在去年,很多客户还不太清楚大模型,虽然PE就像开启了一个万能钥匙,只要能写PE就能找到一个点,但这个点怎么和业务结合,并在业务里证明它确实能降本提效、对人来讲能够很快产出相应的效应的。第二,如果直接调基模,基模没办法满足某些在专业领域协作的细节要求。这些细节要求在实际中又特别的重要,如果不能满足,给个人用一用还行,但上了生产系统就会有问题。还有像互联网属性的内容平台希望能够自动化写作,比如regular早晚报,或是和天气相关的简讯都希望能让机器自动来写,但写的时候又能不着痕迹,别一下就看出来是大模型行为。这在市面上没有比较好的工具,是需求的空白区域。另外,部分使用者觉得自己的专业性更强,这无可否认,我们的一些客户本身做笔杆子工作做了很多年,一定是比大模型更专业,这时他们去看大模型会觉得还不到水平,有点不太够,比如文采太过平淡,没有在关键的时候引经据典。怎么样让大模型能学会也是我们在落地时一些非常具体的问题和痛点。
二、全妙产品介绍
给大家介绍一下全妙的解决方案。
全妙是一个产品系列,有三个大点:是妙策、妙笔、妙搜。三者的产品关系是由妙策做选题策划,妙搜做多模态的素材搜索,用这两个功能来去助攻妙笔,基于它来实现最终的创作。它们以妙笔为中心,但是往前有相应的延伸。通过这样的搭配实现从选题策划阶段就有一个全局观点,能看见网上都是在用什么视角来去讨论一个话题,能用什么更新颖的视角切入。在素材搜索阶段能用多模态的搜索工具充分的和素材库或梅斯库关联,找到高质量素材,把它都灌入妙笔,让妙笔按照指令并且结合相关素材,以及洞察到的东西,综合协作、创作。这样才能支撑到起我们所说的一款专业的创意创作工具。另外它是一个辅助工具,特别是在以SARS化形态表达的妙笔角度,不是替代人工的,而是帮助大家降本增效。如果觉得妙笔写的东西不好,文采略有匮乏,可以多用妙策、妙搜,在这两个环节帮我们打开思路,或提高我们加快搜索素材、加工素材和整理素材的速度,这对大家也是一种增益。除了这些,我们今年还在做一些多模态的配套工具,希望实现从理解、分析到搜索,再到创意、创作,再到投放回流的的闭环,能够在传媒、政企、营销、办公场景帮助到大家。除此之外,关于算法的技术点,我在下一页再给大家做详细的介绍。这一页就还有内容和大家讲一下,AI妙读和全妙营销有点像解决方案类的产品。妙读是专门针对政企可以承接政企的多模态文档精读、公文办公等文体的写作,以及做一些多模态的搜索、问答等需求。如果大家仔细看能够看到里面包了妙笔和妙搜的pass做了基于marketing agent的多技能助手/办公助手。在全妙营销,我们把一些原子能力放在一起,构成了一系列的轻应用,就相当于全妙营销变成一个工具箱,里面有营销内容抽取、营销文案创作、广告词的创作,爆款视频的分析等相应的一些配套小工具,共同帮大家在营销里的单点上提供助力。大家可以把这些能力嵌入到自己的营销产品,基于自己已有的业务系统做一些增益,体现到大模型的落地。
这一页我和大家详细分享一下我们在做这个产品时具体的算法上的一些发力点。全妙是妙策和妙搜助攻妙笔实现配合,最后让协作更专业。
先从洞察策划开始讲。我们有一个算法融合了语义和字符集的内容聚合,实现了百万级关键词的秒级聚合,它透传在功能上给大家的感觉就是它可以4小时一次的把网上主流平台所有的新闻拉过来,快速实现高效聚合。大家到妙策的页面就能看见,通过阅读海量的网页把热点话题按照热度从高到低来排,并且每一个热点话题会讲出跨文档的精炼摘要。比如这个热点话题总共是从这几个视角来展开的,短短的一两百字就能够很快的了解到这个热点在网上大家呈现的是什么样的观点。基于上面的技术,再往下做深了一步,按照指定输入的query自动聚合产出策划文案,策划文案里面包括标题、大纲、摘要、内容,这就实现了另一功能。如果全网的热点话题聚合之后,有参考,但我们觉得它不在关注范围内。比如我是一个一直在研究房地产政策的研究机构,现在热点话题并不在热榜上,但我就想了解现在房地产的相关情况,可以在自定义话题输入想要的话题,比如“中国在最近一周的房地产政策有什么相关的内容”,等一两分钟就能够把这些东西具出来,然后告诉你现在关于房地产的政策有几方面是网上比较关注的,基于这样的输入再看还需什么素材,或者在这方面是不是已经给了自己做报告相应的启发。在素材搜索方面有几个后处理功能。按原文语句回答、抽取新闻要素、按时间线总结以及对搜索结果进行聚类都相当于后处理。按原文语句回答这背后的技术我就不直接念了,大家可以看一下,我想和大家分享一下这有什么用。比如我们在写公文时涉及到引用一些领导人的发言,我不希望过rag然后生成,希望直接引用,直接引用我们就做到了这个功能里。当你搜“绿水青山就是金山银山是习大大在什么时候提出的、背景是什么?”输入这样的query,选择按原文语句回答,就可以直接把演讲稿和query最相关的一段话召回,你在写的时候就能直接引用这一段做相应的公文或者报告,或者央/国企内的一些协作所用,不至于又生成一遍,把有些东西改掉。这在政治类的协作里是不太好的。抽新闻要素在传媒里面用的比较多。比如搜“摩羯台风对海南的影响或危害”如果搜出1000个相关文档,抽新闻要素就会把这里面的时间、地点、人物、事件、减速列出来,一个非常结构化的信息就出来了,有利于快速了解关心的话题、事件。按照时间线回答更适用于谣言在不断的发酵,关心它的传播路径,开始是什么样的,最后在什么时间点又变成了什么样,这个事情的动态是怎么样的。还有盘点类的,比如说回顾某一个电视台在过去几年去主办的这个大运河相关的活动,怎么样做选题策划的,都可以选择按时间线回答,帮你汇总,介绍每一个时间点具体的事件。看着清晰的时间线就会非常清楚。这样对我们在某一些创作的时候是非常有帮助的。此外,素材搜索有多模态能力,不管在营销,还是在传媒,多模态的音、视频类的素材都非常多。我们由大模型完成用户意图理解,视频的素材筛选以及素材插入时机的判断,这样的算法能够让我们的搜索结果是一个多模态结果,除了文字外,有相关的图片。不管是直接利用,还是参与到下一步的创作都非常方便。检索视频时候不是告诉你这一小时的视频里面有和query相关的答案,但具体在哪要自己去看,我们是直接告诉你和query最相关的这个视频的入点和出点都在哪里,这样就极大的提高了效率。在广电系统里,因为节目非常多,如果没有高效的检索工具,就会很耗费时间。这就是我们在这一块提供给大家的解决方案。辅助创作这边就像刚才我在最开始的第二页PPT给大家分享的,现在有这么多的业务需求,还有一些相应的痛点,我们在算法做了针对性的解决。比如第一点双向指令对齐的多阶段创作,这保证了事实性的遵循,以及更好的字数控制。一些基模在创作短文章的时候,比如在营销里面要写一个商详页的标题,字数控制要求很严格,如果超字数,放上去标题就显示不全,影响搜索。怎么样实现更好的字数控制是非常需要解决的点,怎么样做好事实性遵从、控制好是幻觉也有相应的技术,我们在传媒领域,特别是在主流媒体所要求的写作文风里,怎么样坚持媒体的司隶,做好一个主流价值观的一个保障,在政务领域怎么不犯低级的政治错误,都是基于领域知识的适配以及在领域能力激活的领域协作模型。我们给传媒和政务都专门基于千问系列特训了模型,用这种方式来保障。再有怎样去除大模型味儿,写出自己的特点,或者看见有篇文章特别好,希望大模型能够get精髓,按照精髓写,这种我们都是统一用自动的prompt engineering+agenda的方式去解决,支持轻量级的仿写,模仿风格,或按照指定素材的风格写作。这些方面是算法主要的发力点,也和我们关于市场需求的洞察融合在了一起。
三、部分案例
我给大家讲一些案例。
目前我们在一些主流媒体或地方媒体,还有广告传媒都有相应的落地这些落地都是有业务效果的。除此之外,我们在大的集团性客户、政府类的客户、互联网平台、影视传媒类的客户都有相应的案例。全妙的传媒的性质比较突出,但不要把传媒理解窄了,像主流媒体、新媒体、自媒体、融媒体、广告传媒、视传媒、都可以纳入到传媒的范围,我们目前都有相应的案例的。大家可能比较的好奇为什么新能源汽车还能用,我也想和大家分享一下我们落的是一个聚合新闻播报场景,就是妙策+妙搜联动,把这两个能力串联放在了这个车机里,驾车的时候可以播最新的、最热的聚合新闻榜。如果对里面的有些观点比较感兴趣,或有更细的信息想问,就可以和他去做基于语音的人机交互,给你答案。背后用的是妙策加上妙搜的能力来支持的。
四、全妙建设重点与功能介绍
给大家讲一下今年的建设重点,一方面就是更灵活开放、领域延伸,还有多模态能力的深化。后两个刚才多少已经和大家讲了,我更多想讲的是灵活开放。
我们各个产品都会把pass打开,有些客户会开箱即用SARS,但有些客户要把SARS对应的pass集成到自己的业务系统里,我们支持把所有产品的pass都可透,让伙伴或客户自主集成。有些客户觉得我们的页面还不错,我们也支持客户把页面直接嵌入,少了前端开发。另外我们会用轻易用的形式把有竞争力的原子能力或agent打开给到客户。我们真的是希望把自己能给到的一切给出来,让这个产品能够在行业里更进一步,真正实现产业落地。在售卖上也更加灵活。比如说大家买妙笔就自动开通了妙策,有一些支持轻应用的后付费。不管是订阅式的还是独占式的,以及混合云的我们都是支持的,在妙搜也是类似。总体来讲,我们通过这样的售卖的策略最大化的满足不同客户的不同需求,想要全套的,我们有;想要定制的,我们也有;想要本地化的,我们还是有;只想用几个单点能力后付费的,我们依然有。
映衬着开放性。我们产品的最基本的要求是要保障开箱即用,开箱的时候就有一个标准水平。另外我们的开放性还表现在工具箱嵌入、、接口暴露prompt、以及支持最重的用模型训练。,可以和百炼去联动,在百炼里训好模型后,选择全妙的定制版,那样就是支持用全妙的壳,背后的模型是自己特训的。此外我们还会给大家分享一些运营的白皮书,告诉大家在写作前、写作中、写作后,以及在模型训练或者各种调优的过程中,怎么按照已经摸索出来的经验做自己业务的适配。
这个就是轻应用部分。如果大家只想用一部分能力,只是后付费,我们推出了很多的轻应用,不同于基模加prompt engineering,这是我想和大家澄清的一个点,它背后内置了workflow以及agent链路,但是我们在定价上只是一个基模调用的价格。机模又降价了,所以我们这一套也全都降价了,就是选了什么样的模型,在后付费的时候消耗多少token,按基模以及消耗的token来计费,没有加任何其他的价格。我想给大家讲一下视频理解,这也是我们在往多模态方向发展所做的一点。我们内置了一个视频处理模块,把视频上传之后会做格式转换、切片抽帧,然后按照流式分块,分组的喂给VL大模型理解。比如两秒的视频切成120个图片,一点一点的喂给VL大模型,大模型理解之后,下面再挂着一个大语言模型,比如plus或者max,进一步执行视频理解的相应任务,比如标签提取、视频分类、分析镜头运镜方法等,还有一些商品类的介绍视频,在什么时间点出现了商品怎么介绍卖点的等,都是可以理解。拿这个case来讲,它内置了workflow和asian的链路,不等于PE+基模,比它复杂。
所以下面给大家看一下全妙的轻应用,这也是PPT的最后一页。我们今年想在剧本方面多走一步,这也是写作的一种类型,所以有剧本创作的轻易用,都在百炼的应用广场,欢迎大家到体验,给我们提宝贵的意见建议。我就到此为止,我刚才主要讲的都是产品、功能方面的考虑、以及它的一些卖点,后面就有请吴总,给大家讲切实的案例,以及一些相应的经验,谢谢大家。