“互联网原子弹、幼年期的天网、人工智能界的卡丽熙……”这是2020年,轰动整个世界 GPT-3问世后,被全球网民冠以的各种称谓。
尽管夸张,但却意味深长。2020年5月,Open AI发表了一篇开创性的论文,题为Language Models areFew-Shot Learners,拥有1750亿个参数的GPT-3由此诞生。它的运行规模一度令人难以置信,举个例子:英语维基百科(约600万个词条)仅占其训练数据的0.6%,可见其训练数据集之巨大。随着机器学习模型发展愈加复杂,通用AI技术与行业应用之间形成了巨大的鸿沟。而训练超大规模模型恰是解决通用性难题的“关键钥匙”,换言之,AI大模型是AI技术规模化创新的基础,这就是GPT-3之所以备受关注的原因。
中国工程院院士、鹏城实验室主任高文(左)
百度首席技术官王海峰(右)
联合发布鹏城-百度·文心
随着AI大模型被GPT-3带入千亿规模时代,国内外的科技巨头如谷歌、微软、亚马逊和百度,都在AI大模型上做了相应的探索。12月8日,百度联合鹏城实验室重磅发布了双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心,百度产业级知识增强大模型“文心”也登场亮相。
01 缩短通用AI与行业结合的路径
过去人工智能技术,只能是巨头的“游戏”,无论是数据、算法还是算力,都是小公司无法企及的。但随着人工智能与行业需求的不断碰撞,智能应用不断涌现,人工智能也开始逐渐“步入寻常百姓家”。为了推动人工智能的行业普惠,“十四五”规划纲要将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建。我们也看到,很多行业正因为AI的融入在发生改变,并大幅推动了行业AI的需求。例如得益于视频、城市大脑等AI应用场景的带动,AI在行业渗透,推动了政府、交通、公共事业、健康等行业的智能化提速。
但人工智能在训练、验证、部署等阶段,依然面临应用场景多元化、数据巨量化带来的诸多挑战。人工智能与行业之间的最大落差就在于通用性。通常来讲,专用AI解决专用的问题容易,但用AI技术解决通用的需求却很难。因为,一个AI模型往往专用于特定领域,应用于其他领域时效果不好,而训练超大规模模型就能一定程度上解决通用性问题,这也是为什么大模型是通用AI实现的关键。因为大模型的好处不仅是效果好、泛化能力强、通用性强。更是新一轮科技革命和产业变革的重要驱动力量,所以需要实现在各行各业当中的通用性,才能成为产业革命的通用力量。鹏城-百度·文心千亿大模型,融合了自然语言理解和自然语言生成,致力于解决传统AI模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,在各类AI应用场景都具备了极强的泛化能力。泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。因此,大模型的出现,就是为了降低各类用户的开发成本,缩短通用AI与行业需求结合的路径而来的。
02 大模型并不是规模越大效果越好
一个很多人都会感兴趣的问题:大模型是不是参数规模越大越好?鹏城-百度·文心大模型,作为全球首个知识增强的千亿大模型,参数规模达到2600亿,相比GPT-3的参数量提升50%。大模型的全称是“AI预训练大模型”,“预训练”的意思是:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型,避免重复造轮子的现象出现。
参数规模大,意味着进入大规模可复制的产业落地阶段,只需小样本的学习,就能达到比以前更好的效果,这是大规模的好处,但并不是全部。我们知道,训练大模型要从非常大量的数据中去学习,但数据不等于知识,知识是人类对信息的一种感知和经验,从知识中学习,势必要比从数据中学习,更接近于“人类”。这就是百度开创知识增强大模型的用意,也是核心价值。百度产业级知识增强大模型“文心”中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。百度知识增强模型除了在数据海量无结构数据学习以外,很重要的一点是大规模知识,并且学的时候,单元不是简单的串,而是基于语义单元学习,将使得学习效率更高,可解释性更好。的确,传统大模型只从海量的文本中学习,只能死记硬背海量文本的规律,这些模型并不能从本质上理解世界是怎样运行的,只可以解决一些文本表象上的问题。而百度文心大模型,可以同时从大规模知识和海量多元数据中持续学习,所以具有通用性强、效果好的特点。百度也将其总结为三个要点:知识与数据融合学习、知识增强跨语言学习和知识增强跨模态学习。让机器同时学习和理解多种语言,并实现了复杂场景的多层次、高精度语义理解。好处也是显而易见,以增强跨语言学习为例:通常机器翻译需要双语对照,一句中文,对应一句英文的译文,如果多语种,就会出现一对多的情况,导致数据量很大。而文心大模型则通过非平行语料学习,不仅效率更高,也解决了模型向多语种平行迁移的问题。
03 做到AI普惠,大模型只是第一步
如果从用户的视角,有了大模型,把他开放给应用开发者,是不是就够了?就能够满足通用AI在行业落地的问题了呢?显然还不够。实际上,知识增强大模型,降低了AI开发的门槛,但还需要同时辅于方便的工具和平台,支撑开发应用,使开发难度更小,门槛更低。
也就是说,除了大模型的技术和知识支撑之外,还需要更多的支撑力,例如算法框架、算力以及场景。从百度的角度,知识增强大模型也只是其构建智能世界的“基础设施”中的一部分。在算力层面,鹏城-百度·文心大模型训练算力由百度百舸集群和鹏城云脑Ⅱ共同支撑。兼具了AI原生云时代打造的AI基础设施,和我国首个国产自主E级AI算力平台,双方优势互补,保证了算力的充沛。而在深度学习框架层面,百度飞桨是中国首个自主研发、开源开放的深度学习平台,它的端到端自适应分布式训练框架,使得鹏城-百度·文心的训练性能是传统分布式训练方法2.1倍,并行效率高达90%。作为世界上为数不多的超大规模模型训练框架,为了进一步提高训练的稳定性和资源利用率,飞桨还提供弹性调度模块,能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升训练的性能。
最后,为了解决超大模型训练、推理需要消耗及其密集和昂贵的资源,应用难以落地的问题。鹏城-百度·文心大模型首创了大模型在线蒸馏技术,降低大模型成本应用问题。
大模型时代,市场竞争的前半程是模型技术本身,后半程的竞争则是行业落地,很多技术公司容易虎头蛇尾的原因就在于与行业脱钩,与需求脱节,很明显百度已经将知识增强大模型大模型的未来之路想得很清楚了。