GPT-4、百度文心一言摆擂,AI大模型将掀起新一轮AIGC军备竞赛?

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 一场属于巨头的游戏

科技云报道原创。

一觉醒来,万众期待的GPT-4来了。OpenAI老板Sam Altman直接开门见山地介绍说:“这是我们迄今为止功能最强大的模型!”仅隔一天,“中国版ChatGPT”百度文心一言正式发布,双方大有摆擂之势。

image.png

当深度学习推动AI技术又一次复兴,人类对它的最高期待,就是让AI成为第四次产业革命中的“蒸汽机”。

而近几年身处智能革命前沿的,就是预训练大模型。

ChatGPT的横空出世,不仅在科技圈引起哗然,更是点燃了创投圈的创业激情。

国内企业的大规模预训练模型(以下简称“大模型”)赛道也已经开始进入白热化的竞争阶段。

在过去的两周内,诸多以AI大模型为技术底层的厂商,开始获得资本的青睐。

那么,AI大模型目前的主要技术路径是怎样的?在产业侧的成长如何?

“通用大模型+产业模型”的技术路径

必须正视的是,全球大模型竞赛中,我们看到大模型的参数越来越大,数据集记录不断被刷新。

“在各种专业和学术基准上和人类相当。”对于刚刚发布的GPT-4,OpenAI对于其表现相当满意。

OpenAI在官网表示,GPT-4是一个能接受图像和文本输入,并输出文本的多模态模型,是OpenAI在扩展深度学习方面的最新里程碑。

从性能表现看,GPT-4的语言理解和生成能力均超过了ChatGPT,可以解答ChatGPT无法完成的问题,同时GPT-4可以描述并理解图片,并且可接受的文字输入长度也增加到约2.4万个单词。

升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。

比如模拟律师考试,GPT-4取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。

做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800)。

但真正的产业空间里,却很难看到大模型规模化、标准化应用。

这可能是因为大模型与行业知识不相匹配,行业算力基础难以负载大模型部署等等问题。

过去多年的一个市场共识是,如果要实现AI规模化产业落地,底层AI大模型就必须是一个通用的大模型平台,厂商根据用户需求在平台之上,进行多场景、多领域的模型生产,从而实现具体行业模型的落地。

对于厂商而言,这也是一个新的方向。即AI厂商以“通用模型+产业模型”不断赋能企业、产业,从而加速中国的产业数字化进程。

更为重要的是,这种模式一旦落地成功或将快速实现规模化效应,或将为头部AI厂商带来高回报,摆脱当下AI技术落地难,盈利难的现状。

底层AI大模型的研发具有数据规模大、质量参差不齐、模型体积大、训练难度高、算力规模大、性能要求高等挑战。

这样的高研发门槛,不利于人工智能技术在千行百业的推广。

而具有数据、算力、算法综合优势的企业可以将模型的复杂生产过程封装起来,通过低门槛、高效率的生产平台,向千行百业提供大模型服务。

各个行业的企业只需要通过生产平台提出在实际AI应用中的具体需求,生产大模型的少数企业就能够根据应用场景进一步对大模型开发训练,帮助应用方实现大模型的精调,以达到各行业对于AI模型的直接应用。

彼时,AI大模型就会真正意义上实现产业化,成为产业模型。

目前,国内布局AI大模型厂商百度、阿里、腾讯、商汤、华为等企业,正在不断夯实通用大模型,打造产业模型,助力AI大模型产业化。

其中,百度以文心大模型+飞桨PaddlePaddle深度学习平台;腾讯以HunYuan大模型+太极机器学习平台;阿里以通义大模型+M6-OFA;华为以盘古大模型+ModelArts,都打造了自然语言处理大模型、计算机视觉大模型以及多模态大模型方面。

值得注意的是,各个厂商AI大模型的布局,有所差异。

百度由于多年在AI领域的深耕,其文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系,打造大模型总量约40个,产业应用也较为广泛,例如电力、燃气、金融、航天等,构建了国内业界较大的产业大模型。

目前来看,属于国内大模型厂商的第一梯队中的佼佼者。

image.png

腾讯产业化应用方向则主要是腾讯自身生态的降本增效,其中广告类应用表现出色。

阿里更重技术,例如M6大模型基于阿里云、达摩院打造的硬件优势,可将大模型所需算力压缩到极致;另外其底层技术优势还有利于构建AI的统一底层。

目前,主要应用方向是为下游任务提质增效,例如在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索。

image.png

华为的优势则在于其训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。

目前发布了盘古气象大模型、盘古矿山大模型、盘古OCR大模型三项较为重磅的行业大模型。

image.png

可以发现,在商业模式上各个厂商都是通用大模型路径,在通用大模型架构之上,搭建具体行业模型。

映射到产业层面,即“通用大模型+产业模型”的路径。

然而,手握入场券,并不代表能跑到终点。

对于厂商而言,其可以搭建通用大模型,并不意味着其能把通用大模型搭建的好;其有能力打通大模型到产业模型到具体场景的应用,并不意味着其可以打造出有真正价值的智能决策。AI大模型产业化落地的瓶颈需要被正视。

首先,国内大模型缺少数据训练场景。类似ChatGPT的训练场景尤为缺乏。

ChatGPT之所以短时间之内进步神速,因大量用户为其充当了免费的数据标注员。

不过,已目前情况来看,可与ChatGPT相较的数据训练场景在国内还鲜有见到。

其次,产业界对大模型有着浓烈的观望情绪。

业界普遍存在这样的忧虑:目前大模型应用不成熟,骤而上马将会对原有业务造成冲击。

以电商售后和银行电话客服场景为例,目前行业内仍采用主流智能客服公司推出的QA问答库技术。

客户企业希冀大模型产品能够解决QA库无法承担的长尾问题,覆盖到检索式问答路径无法涉足的领域,但金融行业的语料库等数据又不对外开放,让大模型企业不得不重头开始。

这都延迟了大模型进军具体行业的时间表。

总结而言,通用智能企业需要客单价高、数据训练场景丰富的派单需求,但这个问题又与企业的现实考量和预算投入相互矛盾。

没得数据用来训练、没有大钱养活产品,是摆在现实的两大难题。

一场属于巨头的游戏

如今,在大模型赛道中,挤满了巨头派、海归派、创业公司转型派、学院派等各路选手。

抢占大模型赛道头牌的战争已经彻底打响,但花落谁家还尚未可知。

目前,谷歌、微软、亚马逊、百度、阿里、腾讯等科技巨头公司在大模型发展方面具有显著的优势,均有相关雄厚的技术资源和能力,且都在通用大模型上进行了布局与投资。

总体而言,大模型的分水岭主要集中在技术研发、数据和算法资源、商业化能力、人才储备和管理能力四个方面。

首先,在技术研发能力方面。就目前来看,巨头拥有更强的技术研发能力和更丰富的资源,可以投入更多的人力、物力和财力来开展大模型的研究和开发。

他们拥有更完善的数据、算法和硬件等技术支持,能够更快速地推进大模型的研究和应用。

对比巨头和创业公司,技术上的差距在一定程度上取决于人工智能领域内的领先者和后来者。

巨头公司如Google、Facebook、Microsoft等在人工智能领域拥有大量的数据、计算资源和技术经验,因此有更多的能力来训练和优化大模型,推动人工智能技术的发展。

其次,在数据和算法资源方面,巨头拥有更丰富和更完善的数据和算法资源,能够更好地支持大模型的训练和推理。

他们能够利用自身的平台和业务优势来积累海量的数据,并在此基础上进行算法研发和优化。而创业公司通常无法获得这样的数据和算法资源,需要通过自己的努力来积累数据和优化算法,这需要更多的时间和精力。

以OpenAI发布于2020年的GPT-3来看,其具有1750亿个参数的大模型。

在算力方面,人工智能模型的训练和使用需要强大的算力,这就需要大量高性能的GPU来支撑。

在数据方面,据了解,ChatGPT的训练使用了大约45TB数据,其中包含多达近1万亿个单词的文本内容。

但是,由于大型模型需要大量的计算和存储资源,对于初创公司来说,资金和技术限制可能成为了限制因素。

另外,在商业化能力方面,巨头拥有更强的商业化能力和更完善的商业化渠道,能够更好地将大模型应用于商业领域,实现商业价值。

他们可以借助自身的品牌和用户基础,将大模型应用于搜索、推荐、广告等领域,并实现商业化变现。由于创业公司大多缺乏这样的商业化能力和渠道,需要花费更多的时间和精力来探索商业化路径和拓展商业合作。

最后,在人才储备和管理能力方面,巨头拥有更强的人才储备和更完善的管理能力,能够更好地吸引和管理高端人才,构建更具竞争力的团队。

他们可以通过自身的品牌和声誉,吸引到更多的高端人才,并通过自身的管理经验和制度建设,提升团队的协作效率和创新能力。而创业公司通常需要付出更多的努力来构建高端团队和提升管理能力。

虽然,随着技术的不断成熟,越来越多的创业公司也开始利用云计算、分布式计算等技术来加速大模型的训练和优化,不断挑战巨头公司的技术垄断。

创业公司在人工智能领域也有很多机会,但需要更多的创新和勇气来打破技术壁垒和市场垄断。

总之,大模型作为人工智能领域内的重要技术,已经成为了热门的创业领域。

巨头公司拥有更多的资源和技术经验,而创业公司面对这个“烧钱”的领域,不宜盲目跟风,可以通过创新和勇气来不断挑战技术垄断,找到适合自己的业务发展之路。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
87 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
113 2
|
2月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
322 73
|
23天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
41 4
|
1月前
|
人工智能 自然语言处理
从迷茫到精通:揭秘模型微调如何助你轻松驾驭AI新热点,解锁预训练模型的无限潜能!
【10月更文挑战第13天】本文通过简单的问题解答形式,结合示例代码,详细介绍了模型微调的全流程。从选择预训练模型、准备新任务数据集、设置微调参数,到进行微调训练和评估调优,帮助读者全面理解模型微调的技术细节和应用场景。
69 6
|
30天前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
64 1
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
解锁AI潜力:让开源模型在私有环境绽放——手把手教你搭建专属智能服务,保障数据安全与性能优化的秘密攻略
【10月更文挑战第8天】本文介绍了如何将开源的机器学习模型(如TensorFlow下的MobileNet)进行私有化部署,包括环境准备、模型获取与转换、启动TensorFlow Serving服务及验证部署效果等步骤,适用于希望保护用户数据并优化服务性能的企业。
52 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
揭开模型微调Fine-Tuning的神秘面纱:如何在预训练基础上巧妙调整,解锁定制AI解决方案的秘密武器
【10月更文挑战第8天】模型微调是在预训练模型基础上,利用特定领域数据进一步训练,以优化模型在特定任务上的表现。此方法广泛应用于自然语言处理和计算机视觉等领域,通过调整预训练模型的部分或全部参数,结合适当的正则化手段,有效提升模型性能。例如,使用Hugging Face的Transformers库对BERT模型进行微调,以改善文本匹配任务的准确率。
57 1

热门文章

最新文章