
导读:在大模型能力用到企业、业务的探索过程中,阿里云提供全方位的支持,企业可以放开去尝 试各种不同的路径,共同探索智能未来。
本文根据阿里云副总裁、阿里云计算平台事业部负责人汪军华的演讲整理
从大模型能力真正落地的角度来看,2024 年是不折不扣的大模型应用元年。业务场景侧正诞生越来越多的实践案例。
可以预见,未来一两年间大模型能力就会发展到非常实用的地步。当前,找到一些能够率先使用大模型的场景并行动起来至关重要。我们也希望在这个进程中助力客户让 AI 真正地落地,让智能的能力真正用起来。
大模型应用路径
越来越多的企业希望了解落地大模型的趋势和路径到底是什么样,以及如何挖掘利用大模型的技术推动业务创新的优化。
我们总结大模型在企业的应用落地技术路径,可以分为四类。
第一类是带着数据在通用大模型上进行微调(Fine- tuning)。这样做的挑战在于微调量少可能达不到效果,而且通用大模型微调后可能导致通用能力丢失、常识性丢失。从实践上来说,如果想做微调,可以把微调的数据加到原始的数据中做一定比例的混合,这样效果是最好的,但是绝大部分的情况下用户是拿不到原始训练数据的,这是其局限性。
第二类是使用超长上下文(Long Context)。以前大家需要把问题精简了再提供给大模型去做,现在可以把更多的内容、问题放进去。但事实上,光靠“喂”更多内容,是无法实现复杂推理的。
第三类是使用检索增强生成(Retrieval Augmented Generation,RAG),检索增强生成。把要用的这些知识点找出来,然后再“喂”给大模型进行总结或者答案生成,诸如一些智能客服、智能问答的应用都做得比较实用。 但 RAG 技术应用也有很多痛点和难点,比如,知识点该用什么模型做嵌入(Embedding)?该怎么切?前面召回的效果怎么样?召回的准确度如果不高的话,扔给大模型一个错误的召回,反馈的答案也是错误的。不过,在一定工程化的支持下,RAG 是今天落地最多、也更容易变得实用的解决方案。目前很多企业都开始落地应用, 而且的确有很好的 ROI(投资回报率)。
第四类是 Agent 智能体。它能智能地做一些工作,不需要靠手工编排 AI 该怎么用、流程是什么样。但同时,Agent 非常依赖于大模型的能力,大模型要非常强,才让它自动完成任务。
综合来看,一个大模型真正落地,可能是以上几种路径的结合——需要优秀的大模型,也需要更长的上下文窗口,需要用 RAG,也可能用一些智能体的架构。
在落地的过程中有一些企业早期使用开源框架进行开发,但随着大模型能力和生态的完善,一站式的开发平台已经成为新的可选项。阿里云和客户做了很多解决方案,也有完善的工具。比如人工智能平台 PAI 和大模型服务平台百炼都提供所有上述能力,可以通过把这些能力组合起来解决实际问题,如非结构化数据的处理以及文本数据或者图像、视频数据的处理等等。
除了大语言模型,多模态大模型也在引起更多关注。Sora 横空出世,引发了外界对于多模态大模型的技术、应用,甚至关于 AGI 实现路径的讨论。事实上,多模态是通往 AGI 的必经之路,但它和大语言模型发展也并不冲突,甚至是建立在大语言模型基础之上的。因为,实现多模态首先要理解这个世界。
也正因为如此,多模态的应用场景有两类,一类是对多模态的理解,例如对视频进行各个维度的分析;另一类是生成多模态。
而这两类场景,在业务场景中也已经有了很具体的应用。比如,负责营销业务的阿里妈妈一个常见场景是需要用图片素材来生成视频进行广告展示,现在通过 Difusion Model 就可以自动生成,这是已经真实在用的一个场景。
第二个场景是通过对图片和视频理解,把图像和视频的特征内容跟传统搜推广推荐算法联系起来。这个功能也已经上线了,并且有不错的 CTR(点击通过率)效果提升。
尽管已经有落地实践,但多模态的发展还在摸索中。
首先是高质量数据的挑战。相比大语言模型的发展,多模态一个优势在于视频的数据可能比语言的数据多,比如摄像头每天都可以采集到海量数据。但真正高质量、和文本对齐的数据仍然稀少。一个可行的解决办法是通过大语言模型去理解和生成文本的标签,进而把文本和这个视频给联系起来。
第二是算法。Sora 能生成 60 秒的视频,现在还没有模型能够复现。难点就在于怎样能做到长时间保持时间和空间上的连续性、一致性。
第三是算力。多模态也需要很多的算力,甚至可能比大语言模型的算力需要的更多,但现在企业大部分精力还都放在大语言模型上,留给多模态模型的算力是不够的,但这可能只是阶段性问题。
算力与数据,更为现实的问题
在大模型开发带来的挑战中,计算效率首当其冲。大模型动辄千亿万亿的参数,需要海量的算力,且模型参数每年都在飞速增长,模型的算力需求在呈几何级增加。同时,在模型效果进一步提升之后,未来模型的推理算力也会呈几何级数的增加。所以,计算效率的提升变成了一个至关重要的问题。
实现计算效率的提升,需要有高性能的硬件设施、高性能的网络、高性能的存储系统。为此,阿里云推出了 PAI 灵骏智算集群、HPN7.0 高性能网络以及高性能存储系统 CPFS,能让计算、网络和存储的性能得到极致发挥,让十万卡大规模集群像一台计算机一样去运转,释放极致的硬件性能。
但光有硬件还不够,还需要一套软件服务来提升硬件的性能,同时提升极致的稳定性。稳定性一直是大规模训练最大的挑战之一,硬件故障很难避免,各种故障时刻都会发生,而大模型训练一刻都不能停下来。
为了保障用户使用集群时能够无感地处理故障,阿里云做了两个框架:一是弹性容错训练框架 AIMaster,它能够自动监控和治愈各种节点的故障,让用户无感地继续运行 AI 训练任务;二是高性能 Checkpoint 框架 EasyCKPT,它能够实现秒级到分钟级的快照训练的中间结果,然后迅速恢复,以支持整个集群持续运行。通过以上软件能力的提升,阿里云能做到 96% 的训练线性加速比,以及分钟级别恢复。
计算效率的提升,也包括推理效率。
大模型推理也有很多新的挑战,比如需要大模型具有超长上下文窗口,对延迟非常敏感,对算力需求非常高。阿里云推出的 PAI-EAS 高性能推理引擎,针对大模型、特别是大语言模型做了专门优化,能使其吞吐率提高 3.5 倍,并且能做到单卡 280K 的上下文长度。此外,PAI-EAS 也提供极致的弹性,能够以分钟级别进行资源的缩扩容,还能通过异步推理的方式帮助客户兼顾推理的时效性和性价比。这些计算效率的提升,能给客户带来实在的价值。
我们判断今年将是推理爆发的一年——大模型的训练次数是有限的,但基于优质大模型的应用会不断涌现,可能每天都会有上亿人次使用,长远来看,推理的成本会比训练高出至少一到两个数量级。英伟达透露其全年数据中心收入中已经有 40% 来自推理业务。未来,这一比例还将继续提升。由此带来的一个问题是,如何让推理成本更低?
首先,不是每个场景都要用最贵的大模型。以通义千问大模型系列为例,有 0.5B 到 110B 的各种不同参 数规模的模型,可以适配手机、车端、PC、云端等不同场景。而且,有足够的数据之后,把模型压缩,它也能达到原来更大模型的效果。Llama 3 最新公布的 8B 参数模型在一些方面甚至超越了 Llama 2 70B 的模型。
此外,把算力用好本身是非常系统性复杂的工程,需要很强的工程能力,包括高性能网络、高性能存储、大规模调度、编译......阿里云也在不断演进,让算力更普惠,通过云平台,可以直接方便、快捷地为企业提供 AI 能力,而不需要每个企业重复投入时间、投入金钱、投入人力做一件事。
在算力算法之外,阿里云也在让AI的能力更容易上手。产品易用性进一步提升是阿里云今年的一个重点,随着技术越来越成熟,我们希望把大模型落地变成一个普适的能力,能够实现让大家直接开发应用。百炼平台正在不断升级,作为一站式应用开发平台,百炼能帮助企业 在上面以各种方式开发企业应用,助力企业真正把智能变成生产力。
在可见的一两年时间里,大模型要真正变得更具经济性,推理性能还要提升一两个数量级,这样大家可以更广泛、更大量地使用大模型的能力,不需要因为性能或者成本的原因只能用很小的模型,而不是用最好的模型。
在算力焦虑之外,从 2023 年下半年开始,越来越多的人在讨论数据。
大语言模型刚出现的时候,大家的注意力是以模型为中心,觉得只要把数据扔进大模型就能搞定,但是慢慢大家发现只有用高质量的数据才能更高效地提升模型效果,企业自身的数据是大模型能力在企业应用落地的支撑,是通用大模型不具备的垂直领域知识。所以大家开始在数据清洗、数据标注层面投入更多精力,开始关注如何把这些数据跟通用的大模型给结合起来,实现真正的落地......
吴恩达曾经说过“模型开发的 80% 的时间花在数据准备上”,这里面包括数据的积累、清洗、建模、标注、 到治理的全套产品化方案。阿里云有一套大数据平台,从 2009 年开始写第一行代码开始到今天已经 15 年,我们自研了云原生大数据平台 ODPS MaxCompute 和 ODPS Hologres,也包括了实时流式数据处理和开源大数据平台,比如 Flink、EMR Spark、EMR StarRocks、Elasticsearch 等。同时我们也有企业级的一站式数据治理平台 DataWorks,数据可视化平台 DataV 和 QuickBI。
此外,多模态大模型也对数据的质量和形态也提出了一些新的要求。首先,数据要准确,特别是多模态数据和文本数据的配对,打标一定要准确,否则大模型容易学偏。第二,数据要足够泛化,通过各种各样的数据,让大模型具有很强的泛化能力,能学到更多的世界知识。
第三,数据要足够平衡。
第四,数据使用要安全。
未来,合成数据也许将在一些场景发挥效用。比如 , 游戏本身就是生成场景,合成数据用到这里效果就非常好。但是,在另外一些更偏真实的场景中,合成数据对效果的提升还有待检验。
数据会提升具备通识能力的大模型的专业能力,但是从另一层面来说,模型的能力并不仅仅依靠数据,再好的数据训练一个特别小的模型也不会超越同一版本的大参数模型。如何寻求模型和数据之间的平衡?阿里云有大数据平台和人工智能平台,无论用户想做数据还是想做 模型,都有统一的平台提供支持,企业可以放开去尝试各种不同的方向。
智能的概念很激动人心,但大模型的能力用到企业、业务中还处于一个探索的过程中。不同于过往信息化时代和数字化时代以十年为周期的迭代速度,智能时代可能以五年左右为一个周期,而且会是突飞猛进的五年,每个月都会有新的变化。
独行快,众行远。阿里云希望与更多客户和伙伴一起,共同探索智能未来。