
导读:大模型如何驱动产业的新范式,如何改变整个人工智能(AI)产业链。
本文根据美国工程院外籍院士、北京智源人工智能研究院学术顾问委员会主任张宏江在钛媒体2023 T-EDGE全球创新大会的演讲整理
正文:
ChatGPT是第三波AI浪潮的“分水岭”
十五年前,我们进入了以深度学习为代表的第三波AI浪潮。而发展至三年前,无论是企业应用还是算法都进入了一个瓶颈期,尤其在产业方面,投资AI技术的比例到达低点。但当时我们看到Transformer所带来的一系列新的AI算法、AI架构,尤其是GPT3.0大模型所引发的新技术进步。因此,我们认为大模型会成为AI第三次浪潮的一个新拐点。
直到ChatGPT于2022年底发布后,风靡全球,真正成为这一波AI浪潮的分水岭,迎来了“人工智能的iPhone时刻”。
虽然从2002年之前(20世纪90年代)智能手机就已经开始研发,但真正进入广泛应用、进入真正意义上的移动互联网时代,实际上是以乔布斯在2007年发布第一代iPhone为标志事件。再往前看类似的就是PC互联网时代,标志性事件是网景浏览器的诞生。
正如iPhone的出现标志着移动互联网的普及和快速发展,今天ChatGPT的出现,也正是新一轮AI快速发展的新拐点。
从数据来看,ChatGPT发布五天之后,用户数达到100万,两个月内月活跃用户数达到1亿,成为历史上发展最快的消费级应用。今天ChatGPT平台也有几亿人活跃用户。
过去,类似抖音这样的明星应用的用户量破亿都需要一个长期过程,而ChatGPT只用了两个月。这一方面说明了技术发展的加速,另一方面也标志着人类技术发展进入了一个非常重要的拐点。
为什么GPT所代表的新一轮大模型进步如此之重要?这是否标志着AGI(通用人工智能)时代来临?

一份微软研究院发表的题为《AGI的火花:GPT-4的早期实验》系统性研究论文中有一些例子,显示了今天以大模型为标志的AGI技术已经在许多方面接近人的智能,或者说是跟人一样的智能能力。
如何定义人工智能?该研究中将智能定义为一种非常普遍的心理能力,其中包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等能力。而该团队设计了一系列问题来考GPT-4,包括视觉、编码、数学等问题,最终结论是:GPT-4是具有通用智能能力的。
论文中提到两个点,让我们对这一通用智能能力更加坚定。
首先,利用GPT-4,已经可以调用非常复杂的工具。人最独特的就是具有调用工具的能力,而GPT-4恰恰做到了这一点。
譬如,接到“这周我打算和朋友Luke一起到Contoso餐厅约一次晚餐”的指令后,GPT调用日历、Email应用给Luke,分别发送信息问他哪天有空并自动反馈给日历,最终确定了周三晚上6点在Contoso餐厅见面,一切都通过GPT模型自动化完成。第二个例子是,OpenAI的总裁在TED大会进行了一个现场演示,打算大会结束后吃一顿美味大餐,并让GPT给他一些菜品推荐等建议。GPT-4不仅给他推荐出了一些意大利风格的西餐,而且调用了DALL·E工具,把这些菜画出来。
此外,在AI领域,自然语言处理和理解是一个“圣杯”。人类智能的一个核心区别在于人有语言、可以写文字、能够通过语言描述自己的体验、经历和虚拟一些故事。
判断AI智能水平的经典图灵测试,本质上是人机对话测试——即当人们和机器多次对话时,如果无法区别是人还是机器在进行回答,就意味着通过图灵测试,具有人类智能。而ChatGPT,GPT-4恰恰通过了图灵测试,意味着AGI具备了人的智能能力。
这种突破意味着,从古至今,世界首次拥有一个能够精确理解人类语言逻辑的AI系统。这个系统不仅仅是简单的应用学习,而是建立在语义理解的基础上,具备推理和创造能力的AI系统。更令人震惊的是,随着GPT-4模型的性能升级,自然语言逻辑能力亦随之增强,意味着AI系统更具备通用AI能力。
那么,这是否也意味着“奇点”已经来临?
2016年,DeepMind阿尔法狗(AlphaGo)让所有人都很吃惊,利用AI技术AlphaGo打败了韩国围棋冠军李世石。从某种意义上,AI系统具备了一些所谓的“上帝视角”。AlphaGo的下一代系统AlphaZero不再从人类棋谱里面训练,而是利用棋子布局和规则等数据与强化学习结合,从而赢得目标,其能力超越了人类,也就具备了“上帝视角”。
当人类看到GPT学习能力如此之强、演化速度如此之快,学习能力超越了人类的时刻,确实振奋于奇点已来。
大模型如何改变未来科技产业?
从大模型自身而言,如果只是把大模型或未来多模态模型作为一种技术(工具),其实是低估了这次技术突破。实际上,大模型作为AI基础平台,将会系统性推动整个产业进入新的范式。
这个结论是基于以下判断:
第一,大模型决定了下一个超级入口。GPT不仅是AI模型,而且是一个超级系统,重构了用户和用户之间的交互、软件的执行以及计算本身。模型就是产品,人机交互已经变得如此之容易。如果加上多模态的数据,如图像或视频,就能提升人与机器之间的多媒介交互能力。
第二,AI模型将重写所有软件应用。今天大模型已经具备了这样一个能力,未来在软件中,大模型将会无处不在。但凡是需要智力的地方,大模型都能够发挥它的作用,从而将重塑所有的产业,提升所有领域的生产力,并在不断改进和自主化现有的模型下,有望改变整个产业的形态。
第三,没有AI大模型的平台公司不再会是平台公司。这意味着,未来将会有新的平台、新的产品、新的赢家/输家,也意味着有新的商业模型和创业机会,而且初创企业、企业生态系统也会因此重写,新的生态会形成。
第四,一旦有了AI大模型,公司效率极大提升,组织形式将发生根本变化。未来,公司不仅有专业人员,还有Copilot(副驾驶),当大模型可以调用工具的时候,Copilot和Copilot之间彼此互相交互,人做事的效率会有很大提高,最终Copilot慢慢形成一种Auto-pilot,使得公司的组织形式不再是简单把计算机当做工具,而是变成由Copilot主导的未来公司的组织形式,从而对于产业带来更多变化。
那么,大模型将如何改变科技产业?
首先,大模型将是AI应用的新的平台,会带来新生态。
在大模型产业链中,基础设施层是AI芯片和云计算平台,在此之上是各种闭源、开源的AI大模型,最后都会落地到场景,形成更垂直的应用。未来,模型或将成为一种新的发展趋势,从而将成为公司的市场竞争力。
最近OpenAI首届开发者日上,Sam Altman公布了一系列新的模型、功能和模式。很明显可以看到,GPT-4不仅是一个模型,而且还是一个新的平台,和GPT-4对话就可以生成新的工具,从大模型驱动变成了大模型产生各种软件开发模式,从而可能将改变整个AI生态。因此,如今的OpenAI,不只是一家纯粹的AI技术公司,而且还是一家AI平台公司。
我认为,所有的软件公司都必须拥抱大模型,必须得启用大模型来重写软件。不止是大公司,甚至小到做软件工具、应用服务等类型的小企业,都需要拥抱大模型。如今,大家都在关注OpenAI下一步还会推出什么可能影响人类社会发展方向的应用。这正是大模型作为一个新平台的力量所在。
第二,大模型作为基础平台,会系统性推动AI产业进入新范式。
实际上,过去十五年深度学习技术发展过程中,所有应用场景开发的模型都是小模型,比如做安防应用开发人脸识别专属模型,做股票分析AI系统会做小垂直模型。有了大模型之后,我们进入到通用模型新的AI时代,不再需要为一个新的APP开发一个模型,而是用通用大模型进行微调、对齐,大大提高软件开发能力。未来,模型编程也会逐步变成自动化,开发成本大大降低。
最近我和以前一个微软的同事聊起来,他基于GPT模型,只用三个人就做了一系列APP产品。我问他,如果没有GPT的帮助,需要多少软件工程师才能完成这么大的开发量?他回答是120个人。

我认为这个估算可信性很高。他是一位已经在软件工程领域耕耘了二十多年的专业人士,从软件工程师做到软件架构师,再成为软件开发管理者。从管几个人到几十个人,到几百个人到几千人,对软件开发非常熟悉。
从这个例子可以看到,有效利用GPT,可以设计出非常优秀的架构、用户界面和协作产品。大模型不止带来了新的智能应用开发模式,也会大大提升开发效率。
第三,AIGC(生成式人工智能)技术演化推动孪生、编辑、创作三大前沿能力发展。
大模型已经解决了数字人、虚拟创作等技术难题,接下来还要不断优化,使得它效率更好、内容更让人满意,以及更好地对齐人的价值观。但大模型技术还有一个很重要的技术挑战——“幻觉率”。ChatGPT上线时幻觉率是15%-21%,到GPT-4已经有了很大改善,但依然有10%-14%左右。
大模型技术能力还有待改进,才能真正实现产业落地,真正达到或超越用户的期望值。否则就可能出现以前技术瓶颈时期所经历的同样问题——技术虽然有了很大的突破,但真正落地时,仍需不断解决客户实际而具体的问题,难以支撑商业环境下的落地验证,会使产业进入一个“萧条期”。
需要强调的是,我们不要觉得今年有了大模型,在某些应用场景里已经做得很不错了,从而忽略需要在通用大模型能力上的持续投入、持续改善和持续开发。否则,也许再过6个月、12个月,很多依赖大模型的应用将会因为无法达到用户的期望值从而被用户放弃。
第四,大模型将催生哪些新物种?
过去,聊天机器人产品一直不够成熟,而今天有了大模型,通过自然语言技术提升,内容文案、内容创作、会议记录、客服、代码生成等领域已经在快速成熟。
移动互联网创造了比PC互联网更大的市场空间,催生了一系列原生应用,例如短视频、滴滴打车、抖音等,这些APP是在PC互联网技术下无法实现的产品。
所以,未来我们能不能够找到大模型原生应用,这是推广大模型应用的时候需要解决的一个核心问题,比如可以考虑人性化交互、图像效果升级改变等,从而催生AI原生应用。
第五,AI大模型将带来新科学的新范式。
AI for science(科学智能)已经形成共识,一系列新技术不断出现,比如DeepMind的AlphaFold2预测了所有蛋白质结构。未来,我们不仅可看到结构的预测、药品的设计、材料的设计,还会看到AI成为人类的优秀研究助理,甚至最终成为优秀的研究者,让AI帮助我们研究、设计新的AI系统。
除了AlphaFold2之外,在更深层次,大模型可以推动生命科学的发展。比如后续一系列可以期待的新的工具、新的应用,预测大分子结构,以及未来一系列新的生物分子结构的预测。
展望
AI到底能影响多少人的工作?今年3月,OpenAI和美国宾夕法尼亚大学的相关研究人员联合发表了一篇论文,分析了GPT对美国劳动力的影响。结论是,大约80%的美国劳动力,至少他们的工作中间有10%会受到影响;此外有约19%的人,其工作任务受影响的比例超过50%。与此同时,这种影响跨越了所有的工资范围,甚至高收入的工作可能会面临更大的影响。
Sam Altman团队的观点认为:第一,未来大模型不仅是语言模型,更是多模态模型,会打开新的局面;第二,未来AI对产业、工作的影响深远,AI会代替未来许多工作。相对于此前认知的低技能工作开始替代,如今我们却能看到,内容生成这种创造性工作也会被AI所取代,原来希望AI技术可以扫地、做饭、洗衣服、叠衣服、扔垃圾,结果却是绘画、写作、作曲等创造性工作最先被替代。
这是否意味着,未来AI技术不能替代“体力活”?答案是否定的。
此前,机器人只能听从人们的单一指令,如“把可乐瓶扔掉”。机器人的所有动作都是事先编程好的,并不具备识别或自我规划的能力,不能识别这个场景所做的事情。
而今天,基于大模型能力,新的机器人可以把文字命令转化成一系列的动作,不仅能听懂复杂指令,而且还基于指令进行思考,具备自我规划能力。最近谷歌公布的机器人模型RT-2,结合了基于GPT模型的全新工作能力和规划能力。比如发出指令让机器人抓住桌面上“已经灭绝的动物”,随后机器人就思考哪些动物属于已经灭绝的动物,最后根据规划把恐龙抓了出来。这就是多模态大模型与机器人之间的结合。
未来的机器人不仅识别周围环境,还能自我识别,并利用大模型推理,最终识别目标。换句话说,今天人类拥有的机器人已经有“理解”的能力,而这个能力来源于大模型。
智源研究院团队也有一项研究,培训了一个机械手臂类型的机器人,使其能够开门。实验过程中,在没有大模型的情况下,机械手只能执行教给它的特定动作,如开抽屉门或拿起锅盖,所以当机械手面临没有门把手的微波炉门时,它遇到了新的场景和问题,无法打开微波炉的门;但加入多模态大模型能力后,机械手能够根据微波炉手册的描述,重新规划行为,按下底部按钮来打开微波炉。
需要指出的是,这个过程中,机械手并没有被人告知要按按钮,而是通过大模型进行推理和思考得出解决方案。这表明,未来的机器人通过大模型进行少量训练后,能够做出以前未经过训练的动作,而这些知识都来自大模型。
所以,从另一个角度来看,大模型是机器人行业的一个“分水岭”,当机器人拥有大模型,尤其是多模态大模型的能力,就可以思考、推理、规划更多的工作任务,由此有了事物的更多可能性。
如果机器人利用大模型能掌握更多的工作能力,未来自动驾驶是否也能具备更多自我规划和推理能力?
我们认为,随着大模型的加持,自动驾驶行业也将会被“重写”。
实际上,人在开车的时候,并非所有的场景都学习过,但人们可以在各地正常按交规驾驶。今天的自动驾驶,只能够在一个地点需要数据训练之后才能开车,比如北京的亦庄、上海浦东等地。我认为,未来基于GPT大模型技术,每个新城市都需要三个月的重新训练这件事将不需要再做了。未来的自动驾驶应该会被大模型“重写”,基于大模型的自动驾驶技术具备自我推理、自我规划等能力,从而今天所说的新的极端情况(Corner Case)、新的路况不再成为自动驾驶系统在一个地方落地的障碍。
可以想象,在虚拟世界中模拟自动驾驶的过程,可以解决很多数据量不够等问题,这是一项非常有意义的研究,也是智源研究院推动的一项新的研究。
总结来说,在大模型技术加持下,未来的机器人将从通用走向多智能体Agent下的“行动智能”(自主智能)时代。
回顾整个IT技术发展的60年,主要分以下三个阶段。
第一个阶段是“信息”系统时代。无论是互联网,还是IT系统,都是在获取信息、收集信息,传输和处理信息;
第二个阶段是“智能”系统时代。我们不再只是收集信息,而是将信息变成智能,从而帮助我们形成智能系统;
未来我们将会进入第三个阶段:行动智能时代。当AI能够感知世界、理解世界、推理世界之后,未来还将拥有自主驱动的行动能力。当然,这也是机器人的未来、自动驾驶的未来。
有了这些之后,AI不止会替代很多人类的所谓“白领”工作,未来整个人类所从事的行为,都会被AI软件或未来机器人所取代,这就是未来的“自主智能”世界。