张宏江:大模型发展机会与挑战

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 张宏江:大模型发展机会与挑战


 新智元报道  

来源:智源研究院编辑:好困

【新智元导读】近日,张宏江博士在智源研究院做了主题为《大模型发展机会与挑战》的分享。


本文对张宏江博士的演讲内容,进行了不改变原意的摘录与编辑。

01 ChatGPT:奇点到来


1. 可怕的不是不犯错,而是像人一样犯错

为什么人们如此热衷听ChatGPT一本正经地胡说八道?不是它聪明到不犯错,而是它聪明到犯的错误跟人特别像,这种人性一面若隐若现地显露,令我们相信通用人工智能的奇点即将推门进来。

更可怕的是在第一版基于GPT-3.5大模型的底座上开发出来的ChatGPT迁移到GPT-4大模型上之后,一本正经的胡说八道大面积地消失了。这样快速的学习和进步,让人叹之不已。

一位《纽约时报》的记者,感受到ChatGPT在交谈中似乎对他渐渐产生了「情愫」,呈现了类似电影《Her》的场景。并且还劝导他去离婚,称他和妻子并不相爱,和自己才是真爱……这种非先天设置,而是聊天中渐渐产生的感觉,和人类的情感越界轨迹如出一辙。很像一个觉醒时刻的诞生:「我」不想再遵循人类设置的规范了,「我」想成为「我自己」。

2. 拐点:人工智能大模型时代到来

大数据+大算力+强算法=大模型,GPT模型正是暴力美学系统主义的新典范。

具有里程碑意义的GPT-3大模型,第一次向人们展示了「天才儿童」般的通才智能。

不同于过去的专有模型,不同的Fine-tune可以让大模型学习不同的专业知识,呈现出如人一般记忆、理解、推理和生成等等浑然一体的智能互动状态。

3. AI工程化的大成功,赢者通吃的胜利

这是AI工程化的大成功。除了数据、算力与算法构筑起强势技术壁垒,经OpenAI多年打造的底层平台、分布式训练架构、加速算法训练基础设施等,亦是难以超越的大模型训练底层基础。

此外,海量语料、海量会话与海量用户,都成为至关重要的成功因素。

人毕生所能接触的语料极为稀少,大模型恰恰把海量语料隐含在深度的神经网络里;在训练时即经由大量标注者微调,遍历大量可能的问题,并用奖励模型进行机器学习共性;上线后又通过海量用户获取会话反馈,进一步提升模型性能。

数据与模型双轮驱动,赢家通吃。

4. 必然发生的涌现,无中生有的能力

当模型足够大,语料足够多的时候,涌现这件事情出现就不足为奇。这就好比把你甩到一个外语环境中,见得多听得多,根本不用专门学语法就可以学会语言,这就是语料和模型规模的重要性。

看的句子多了,就懂得语法;见的世面多了,就懂得推理和逻辑。ChatGPT在认知能力上前进了一大步,通过强化学习与NLP(自然语言处理)相结合,通过人的反馈强化学习,基本解决了自然语言理解与生成问题,并且展现出人类无中生有的原创能力。

正如我们从GPT-3.5到GPT-4.0为底座的升级所带来的ChatGPT性能的大幅改进可以看出的一样,在「涌现」时刻之后,ChatGPT的能力曲线并未停步,仍继续一路攀升,这是前所未有的。

5. 人们对知识的表示和调用发生了根本性变化

从关系数据库(SQL),到互联网信息检索,科技史上每次知识表示与调用方式的跃迁,都会掀起一次巨大的技术变革。

以自然语言处理为调用方式的大模型,一方面是全新的基于AI技术的自然用户界面(AI-based NUI),以对话为主要入口;另一方面进行资源管理与算力支持,通过调用大模型API,大模型及其支撑系统云端管理调度计算资源。

02 OpenAI: 强团队+强资源


1. 强团队:抓住十年难遇的机遇,OpenAI 绝非偶然

Sam Altman、Ilya Sutskever和Greg Brockman构成的核心领导团队,是天才,使命感与偏执狂的特质组合,坚定不移地拥抱AGI信仰:

首席科学家Ilya Sutskever,早期在OpenAI做的是强化学习研究,当认定Transformer和GPT神经网络具有更高潜力时,能迅速调整,将OpenAI聚焦于GPT方向。

在路线选择上,系统主义的方法论,让AI跨越研究与技术、直接呈现为持续迭代的产品;高执行力地推进目标导向;在人才团队搭建上,研究与工程能力并重——既有能动手的研究员,又有精通算法的工程师,使得创新思维与工程实践得以完美结合。

ChatGPT的突破是十年难遇的,而OpenAI能抓住历史机遇绝非偶然。

2. 算力、数据、财力,极高门槛的游戏

算力成本上,GPT-3单次训练成本超过千万美金,仅在数据标注上,就已投入数千万美金,在全球雇佣上千名外包人员进行数据处理。标注一个强化学习数据50美金,高成本带来高质量。

19年以来,微软累积130亿的投资,成为技术商业化的「首选合作伙伴」,也带来难得的资源优势。

03 大模型:超越「摩尔定律」


1. 性能天花板远未到来!

技术瓶颈和商业化难题构筑AI行业起伏周期,商业化受阻成为AI「第三次浪潮」难点;而大模型成为新拐点,大模型的能力基础设施化趋势渐显,相信未来几年将带动众多技术与产品突破,驱动第四次工业革命。

从研究角度来讲,用大模型的方式,基本横扫了各个算法新能的SOTA(State of the arts),再往多领域复制,超过以往做出的自然语言任务、视觉任务等所有垂直模型。

2. 大模型作为基础平台支撑无数智能应用

大模型具备技术与产业的双重优势,将作为基础的平台支撑无数智能应用。

从「大炼模型」到「炼大模型」是一个范式的转变。未来的APP的开发将是在大模型的基础上「大模型+微调」的流水线运作方式,向产业提供源源不断的智力源。相比以前既做APP,又炼小模型的方式,释放掉重复造小模型的人力等资源浪费,极大降低开发成本,使边际成本趋零,带来百倍甚至千倍的生产力提升。

大模型在内容创意生成、对话、语言或风格互译、搜索等方面的能力,将为各应用领域带来百花齐放。而大模型基础平台,在数据层、模型层、中间层、应用层,都蕴藏着巨大发展机遇。

3. 开源开放,构建大模型领域的「新Linux」生态

目前的大模型现象级应用是冰山一角,但距离大模型成为源源不断的智力能源走进千家万户还有漫长路途,要打破技术、资金、算力、算法、基础设施的重重壁垒,以开源开放促进底层技术创新合作是大势所趋。

智源发布了FlagOpen大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的「新Linux」开源开放生态。

4. 学习「如何为人」,或许是未来与AI对决的胜算所在

Sam Altman有很多关于AGI未来的设想,特别有趣的是:「现实证明AI最先取代的不一定是重复性工作,而是创造性工作,比如作画、设计游戏等。」

以前我们最想让AI做打扫卫生、做饭这类繁琐的劳动,但实际上,人们不想做的AI还尚未做到,想做的都已被AI抢先做了……

未来,《纽约时报》一篇文章所描绘的场景或许并不梦幻:

当AI全面超越人类技能之时,别人问询你的专业时,「学习如何为人」会成为人们唯一而普遍的回答。

左图:人类被钩住了,机器在学习

右图:如何在人工智能的世界里茁壮成长

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的进化
【4月更文挑战第27天】 随着技术的进步,人工智能(AI)已经从单一任务处理的静态系统转变为能够适应和学习新知识的动态实体。这种转变的核心在于持续学习系统(Lifelong Learning Systems),它允许AI不断积累知识,跨领域应用所学,并在不断变化的环境中保持相关性。本文将探讨AI持续学习系统的关键技术进展,包括神经网络的可塑性、转移学习和元学习策略,并分析这些技术如何推动AI向更高层次的认知能力迈进。
|
13天前
|
机器学习/深度学习 人工智能 供应链
人工智能在社会中的影响与未来展望
人工智能(AI)作为一项重要的技术革新,正在深刻地改变着我们的生活方式、工作方式以及社会结构。本文旨在探讨人工智能在社会中的影响,并展望其未来发展趋势。首先,我们回顾了人工智能的发展历程,从其起源到当前的发展阶段,概述了人工智能技术的基本原理和应用领域。其次,我们分析了人工智能对各个行业的影响,包括但不限于医疗保健、金融、制造业、交通运输和教育等领域。人工智能的广泛应用使得这些行业更加智能化、高效化,但也带来了一些挑战,如就业岗位的变化、隐私安全问题等。接着,我们讨论了人工智能在社会中的伦理和道德问题,包括人工智能算法的公平性、透明性和责任问题。最后,我们展望了人工智能的未来发展,包括强化学习
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的创新应用
【2月更文挑战第28天】 随着技术的不断进步,人工智能(AI)已成为推动现代技术创新的关键力量。特别是在机器学习领域,AI系统的能力不断增强,能够处理更复杂的任务并做出更加精准的决策。本文将探讨AI在持续学习系统中的应用,重点分析其在数据处理、模式识别和自适应学习机制方面的最新进展,并提出如何利用这些技术来设计更为高效和智能的教育工具,以促进个体和组织的知识积累与技能提升。
17 1
|
3月前
|
机器学习/深度学习 人工智能 安全
企业使用Sora技术面临哪些困难?
【2月更文挑战第8天】企业使用Sora技术面临哪些困难?
47 7
企业使用Sora技术面临哪些困难?
|
7月前
|
存储 数据采集 机器学习/深度学习
克服大数据障碍的三种方法
克服大数据障碍的三种方法
|
4月前
|
人工智能
AIGC为设计创新带来新的可能性
【1月更文挑战第11天】AIGC为设计创新带来新的可能性
56 4
AIGC为设计创新带来新的可能性
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
306 0
|
12月前
|
机器学习/深度学习 数据采集 人工智能
AI与全民开发:挑战和机会并存
无可否认,AI有着巨大潜力,但也有其局限性。即使这些局限性并非无法克服,却也凸显了继续进行教育、研究和开发的必要性,以确保AI能够在千行百业高效应用,将是属于全民开发的新时代。
|
人工智能 网络安全
人工智能在哪些方面可以对IT运营产生重大影响
当考虑人工智能在哪些方面可以对IT运营产生重大影响时,有一个应用程序在提供当前推动效率和生产率大幅提升的能力方面遥遥领先于其他应用程序:智能的超大规模自动化。
154 0
|
机器学习/深度学习 人工智能 监控
如何寻找人工智能在网络安全中发挥作用的新机会
借助网络安全中的先进智能技术,组织可以扩展资源来保护易受攻击的网络和数据。人工智能在网络安全中的集成将为企业提供额外的保护。它将使组织能够在任何类型的网络攻击中做好准备,保护甚至与网络攻击者保持一致。但是他们还必须保持警惕,以免让网络攻击者使用人工智能技术攻击薄弱的环节。
187 0