全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 全球首个知识增强千亿大模型鹏城-百度·文心发布,打破AI技术与行业落地鸿沟

“互联网原子弹、幼年期的天网、人工智能界的卡丽熙……”这是2020年,轰动整个世界 GPT-3问世后,被全球网民冠以的各种称谓。

尽管夸张,但却意味深长。2020年5月,Open AI发表了一篇开创性的论文,题为Language Models areFew-Shot Learners,拥有1750亿个参数的GPT-3由此诞生。它的运行规模一度令人难以置信,举个例子:英语维基百科(约600万个词条)仅占其训练数据的0.6%,可见其训练数据集之巨大。随着机器学习模型发展愈加复杂,通用AI技术与行业应用之间形成了巨大的鸿沟。而训练超大规模模型恰是解决通用性难题的“关键钥匙”,换言之,AI大模型是AI技术规模化创新的基础,这就是GPT-3之所以备受关注的原因。

中国工程院院士、鹏城实验室主任高文(左)

百度首席技术官王海峰(右)

联合发布鹏城-百度·文心


随着AI大模型被GPT-3带入千亿规模时代,国内外的科技巨头如谷歌、微软、亚马逊和百度,都在AI大模型上做了相应的探索。12月8日,百度联合鹏城实验室重磅发布了双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心,百度产业级知识增强大模型“文心”也登场亮相。

01 缩短通用AI与行业结合的路径

过去人工智能技术,只能是巨头的“游戏”,无论是数据、算法还是算力,都是小公司无法企及的。但随着人工智能与行业需求的不断碰撞,智能应用不断涌现,人工智能也开始逐渐“步入寻常百姓家”。为了推动人工智能的行业普惠,“十四五”规划纲要将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建。我们也看到,很多行业正因为AI的融入在发生改变,并大幅推动了行业AI的需求。例如得益于视频、城市大脑等AI应用场景的带动,AI在行业渗透,推动了政府、交通、公共事业、健康等行业的智能化提速。


但人工智能在训练、验证、部署等阶段,依然面临应用场景多元化、数据巨量化带来的诸多挑战。人工智能与行业之间的最大落差就在于通用性。通常来讲,专用AI解决专用的问题容易,但用AI技术解决通用的需求却很难。因为,一个AI模型往往专用于特定领域,应用于其他领域时效果不好,而训练超大规模模型就能一定程度上解决通用性问题,这也是为什么大模型是通用AI实现的关键。因为大模型的好处不仅是效果好、泛化能力强、通用性强。更是新一轮科技革命和产业变革的重要驱动力量,所以需要实现在各行各业当中的通用性,才能成为产业革命的通用力量。鹏城-百度·文心千亿大模型,融合了自然语言理解和自然语言生成,致力于解决传统AI模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,在各类AI应用场景都具备了极强的泛化能力。泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。因此,大模型的出现,就是为了降低各类用户的开发成本,缩短通用AI与行业需求结合的路径而来的。

02 大模型并不是规模越大效果越好

一个很多人都会感兴趣的问题:大模型是不是参数规模越大越好?鹏城-百度·文心大模型,作为全球首个知识增强的千亿大模型,参数规模达到2600亿,相比GPT-3的参数量提升50%。大模型的全称是“AI预训练大模型”,“预训练”的意思是:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型,避免重复造轮子的现象出现。


参数规模大,意味着进入大规模可复制的产业落地阶段,只需小样本的学习,就能达到比以前更好的效果,这是大规模的好处,但并不是全部。我们知道,训练大模型要从非常大量的数据中去学习,但数据不等于知识,知识是人类对信息的一种感知和经验,从知识中学习,势必要比从数据中学习,更接近于“人类”。这就是百度开创知识增强大模型的用意,也是核心价值。百度产业级知识增强大模型“文心”中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。百度知识增强模型除了在数据海量无结构数据学习以外,很重要的一点是大规模知识,并且学的时候,单元不是简单的串,而是基于语义单元学习,将使得学习效率更高,可解释性更好。的确,传统大模型只从海量的文本中学习,只能死记硬背海量文本的规律,这些模型并不能从本质上理解世界是怎样运行的,只可以解决一些文本表象上的问题。而百度文心大模型,可以同时从大规模知识和海量多元数据中持续学习,所以具有通用性强、效果好的特点。百度也将其总结为三个要点:知识与数据融合学习、知识增强跨语言学习和知识增强跨模态学习。让机器同时学习和理解多种语言,并实现了复杂场景的多层次、高精度语义理解。好处也是显而易见,以增强跨语言学习为例:通常机器翻译需要双语对照,一句中文,对应一句英文的译文,如果多语种,就会出现一对多的情况,导致数据量很大。而文心大模型则通过非平行语料学习,不仅效率更高,也解决了模型向多语种平行迁移的问题。

03 做到AI普惠,大模型只是第一步

如果从用户的视角,有了大模型,把他开放给应用开发者,是不是就够了?就能够满足通用AI在行业落地的问题了呢?显然还不够。实际上,知识增强大模型,降低了AI开发的门槛,但还需要同时辅于方便的工具和平台,支撑开发应用,使开发难度更小,门槛更低。


也就是说,除了大模型的技术和知识支撑之外,还需要更多的支撑力,例如算法框架、算力以及场景。从百度的角度,知识增强大模型也只是其构建智能世界的“基础设施”中的一部分。在算力层面,鹏城-百度·文心大模型训练算力由百度百舸集群和鹏城云脑Ⅱ共同支撑。兼具了AI原生云时代打造的AI基础设施,和我国首个国产自主E级AI算力平台,双方优势互补,保证了算力的充沛。而在深度学习框架层面,百度飞桨是中国首个自主研发、开源开放的深度学习平台,它的端到端自适应分布式训练框架,使得鹏城-百度·文心的训练性能是传统分布式训练方法2.1倍,并行效率高达90%。作为世界上为数不多的超大规模模型训练框架,为了进一步提高训练的稳定性和资源利用率,飞桨还提供弹性调度模块,能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升训练的性能。

最后,为了解决超大模型训练、推理需要消耗及其密集和昂贵的资源,应用难以落地的问题。鹏城-百度·文心大模型首创了大模型在线蒸馏技术,降低大模型成本应用问题。

大模型时代,市场竞争的前半程是模型技术本身,后半程的竞争则是行业落地,很多技术公司容易虎头蛇尾的原因就在于与行业脱钩,与需求脱节,很明显百度已经将知识增强大模型大模型的未来之路想得很清楚了。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
5天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
60 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
3天前
|
机器学习/深度学习 人工智能 智能设计
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。
25 4
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
|
7天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
3天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
31 13
|
6天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
42 14
|
1天前
|
人工智能 自然语言处理 计算机视觉
AI大模型开启智能化新时代
12月19日下午,复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。
34 4
|
6天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
|
2天前
|
人工智能 安全 图形学
【AI落地应用实战】篡改检测技术前沿探索——从基于检测分割到大模型
在数字化洪流席卷全球的当下,视觉内容已成为信息交流与传播的核心媒介,然而,随着PS技术和AIGC技术的飞速发展,图像篡改给视觉内容安全带来了前所未有的挑战。 本文将探讨篡改检测技术的现实挑战,分享篡改检测技术前沿和最新应用成果。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
66 10

热门文章

最新文章