全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟

“互联网原子弹、幼年期的天网、人工智能界的卡丽熙……”这是2020年,轰动整个世界 GPT-3问世后,被全球网民冠以的各种称谓。

尽管夸张,但却意味深长。2020年5月,Open AI发表了一篇开创性的论文,题为Language Models areFew-Shot Learners,拥有1750亿个参数的GPT-3由此诞生。它的运行规模一度令人难以置信,举个例子:英语维基百科(约600万个词条)仅占其训练数据的0.6%,可见其训练数据集之巨大。随着机器学习模型发展愈加复杂,通用AI技术与行业应用之间形成了巨大的鸿沟。而训练超大规模模型恰是解决通用性难题的“关键钥匙”,换言之,AI大模型是AI技术规模化创新的基础,这就是GPT-3之所以备受关注的原因。

中国工程院院士、鹏城实验室主任高文(左)

百度首席技术官王海峰(右)

联合发布鹏城-百度·文心


随着AI大模型被GPT-3带入千亿规模时代,国内外的科技巨头如谷歌、微软、亚马逊和百度,都在AI大模型上做了相应的探索。12月8日,百度联合鹏城实验室重磅发布了双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心,百度产业级知识增强大模型“文心”也登场亮相。

01 缩短通用AI与行业结合的路径

过去人工智能技术,只能是巨头的“游戏”,无论是数据、算法还是算力,都是小公司无法企及的。但随着人工智能与行业需求的不断碰撞,智能应用不断涌现,人工智能也开始逐渐“步入寻常百姓家”。为了推动人工智能的行业普惠,“十四五”规划纲要将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建。我们也看到,很多行业正因为AI的融入在发生改变,并大幅推动了行业AI的需求。例如得益于视频、城市大脑等AI应用场景的带动,AI在行业渗透,推动了政府、交通、公共事业、健康等行业的智能化提速。


但人工智能在训练、验证、部署等阶段,依然面临应用场景多元化、数据巨量化带来的诸多挑战。人工智能与行业之间的最大落差就在于通用性。通常来讲,专用AI解决专用的问题容易,但用AI技术解决通用的需求却很难。因为,一个AI模型往往专用于特定领域,应用于其他领域时效果不好,而训练超大规模模型就能一定程度上解决通用性问题,这也是为什么大模型是通用AI实现的关键。因为大模型的好处不仅是效果好、泛化能力强、通用性强。更是新一轮科技革命和产业变革的重要驱动力量,所以需要实现在各行各业当中的通用性,才能成为产业革命的通用力量。鹏城-百度·文心千亿大模型,融合了自然语言理解和自然语言生成,致力于解决传统AI模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,在各类AI应用场景都具备了极强的泛化能力。泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。因此,大模型的出现,就是为了降低各类用户的开发成本,缩短通用AI与行业需求结合的路径而来的。

02 大模型并不是规模越大效果越好

一个很多人都会感兴趣的问题:大模型是不是参数规模越大越好?鹏城-百度·文心大模型,作为全球首个知识增强的千亿大模型,参数规模达到2600亿,相比GPT-3的参数量提升50%。大模型的全称是“AI预训练大模型”,“预训练”的意思是:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型,避免重复造轮子的现象出现。


参数规模大,意味着进入大规模可复制的产业落地阶段,只需小样本的学习,就能达到比以前更好的效果,这是大规模的好处,但并不是全部。我们知道,训练大模型要从非常大量的数据中去学习,但数据不等于知识,知识是人类对信息的一种感知和经验,从知识中学习,势必要比从数据中学习,更接近于“人类”。这就是百度开创知识增强大模型的用意,也是核心价值。百度产业级知识增强大模型“文心”中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。百度知识增强模型除了在数据海量无结构数据学习以外,很重要的一点是大规模知识,并且学的时候,单元不是简单的串,而是基于语义单元学习,将使得学习效率更高,可解释性更好。的确,传统大模型只从海量的文本中学习,只能死记硬背海量文本的规律,这些模型并不能从本质上理解世界是怎样运行的,只可以解决一些文本表象上的问题。而百度文心大模型,可以同时从大规模知识和海量多元数据中持续学习,所以具有通用性强、效果好的特点。百度也将其总结为三个要点:知识与数据融合学习、知识增强跨语言学习和知识增强跨模态学习。让机器同时学习和理解多种语言,并实现了复杂场景的多层次、高精度语义理解。好处也是显而易见,以增强跨语言学习为例:通常机器翻译需要双语对照,一句中文,对应一句英文的译文,如果多语种,就会出现一对多的情况,导致数据量很大。而文心大模型则通过非平行语料学习,不仅效率更高,也解决了模型向多语种平行迁移的问题。

03 做到AI普惠,大模型只是第一步

如果从用户的视角,有了大模型,把他开放给应用开发者,是不是就够了?就能够满足通用AI在行业落地的问题了呢?显然还不够。实际上,知识增强大模型,降低了AI开发的门槛,但还需要同时辅于方便的工具和平台,支撑开发应用,使开发难度更小,门槛更低。


也就是说,除了大模型的技术和知识支撑之外,还需要更多的支撑力,例如算法框架、算力以及场景。从百度的角度,知识增强大模型也只是其构建智能世界的“基础设施”中的一部分。在算力层面,鹏城-百度·文心大模型训练算力由百度百舸集群和鹏城云脑Ⅱ共同支撑。兼具了AI原生云时代打造的AI基础设施,和我国首个国产自主E级AI算力平台,双方优势互补,保证了算力的充沛。而在深度学习框架层面,百度飞桨是中国首个自主研发、开源开放的深度学习平台,它的端到端自适应分布式训练框架,使得鹏城-百度·文心的训练性能是传统分布式训练方法2.1倍,并行效率高达90%。作为世界上为数不多的超大规模模型训练框架,为了进一步提高训练的稳定性和资源利用率,飞桨还提供弹性调度模块,能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升训练的性能。

最后,为了解决超大模型训练、推理需要消耗及其密集和昂贵的资源,应用难以落地的问题。鹏城-百度·文心大模型首创了大模型在线蒸馏技术,降低大模型成本应用问题。

大模型时代,市场竞争的前半程是模型技术本身,后半程的竞争则是行业落地,很多技术公司容易虎头蛇尾的原因就在于与行业脱钩,与需求脱节,很明显百度已经将知识增强大模型大模型的未来之路想得很清楚了。

相关文章
|
1天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型助力客户对话分析
该AI大模型解决方案利用NLP和机器学习技术分析客户对话,提升服务质量和用户体验。方案实践原理清晰,涵盖数据处理、模型训练等步骤,适合技术背景不同的用户。阿里云提供详尽的部署引导和文档,降低学习成本。Python脚本实用,但需注意环境配置。方案能满足基本对话分析需求,特定场景下需定制化开发。
47 28
|
3天前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
25 10
|
3天前
|
存储 人工智能 Serverless
AI大模型助力客户对话分析评测文章
在数字化时代,企业面临客户对话数据处理的挑战。阿里云推出的AI大模型助力客户对话分析方案,通过整合多种云服务,实现对话数据的自动化分析,提升服务质量和客户体验。本文将详细介绍该方案的优势与实际应用效果。
|
1天前
|
人工智能
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
15 3
|
1天前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
8 1
|
2天前
|
敏捷开发 人工智能 运维
汽车革命下半场AI先锋:广汽为新“智”汽车装配大模型“底盘”
汽车革命下半场AI先锋:广汽为新“智”汽车装配大模型“底盘”
|
2天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。
|
2天前
|
人工智能 关系型数据库 数据中心
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
|
2天前
|
机器学习/深度学习 数据采集 人工智能
AI 大模型助力客户对话分析
该评测深入分析了“AI大模型助力客户对话分析”方案,涵盖实践原理、实施方法、部署过程、功能满足度及潜在改进空间。通过NLP和机器学习技术,方案能有效提升服务质量和客户体验,但针对特定行业需求尚需定制化开发。