参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」

【新智元导读】谷歌的这项研究,很可能是我们迈向AGI的一大步。


由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。

当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。

如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。

解码器提示的 DALL-E

神奇的「突现」能力


自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游NLP任务的性能和样本效率。

在许多情况下,我们可以通过推断较小模型的性能趋势预测大型语言模型的性能。例如,规模对语言模型困惑的影响已被验证跨越超过七个数量级。

然而,某些其他任务的性能却并没有以可预测的方式提高。

例如,GPT-3的论文表明,语言模型执行多位数加法的能力对于从100M到13B参数的模型具有平坦的缩放曲线,近似随机,但会在一个节点造成性能的飞升。

鉴于语言模型在NLP研究中的应用越来越多,因此更好地理解这些可能意外出现的能力非常重要。

在近期发表在机器学习研究(TMLR)上的论文「大型语言模型的突现能力」中,研究人员展示了数十个扩展语言模型所产生的「突现」能力的例子。

这种「突现」能力的存在提出了一个问题,即额外的缩放是否能进一步扩大语言模型的能力范围。

某些提示和微调方法只会在更大的模型中产生改进

「突现」提示任务


首先,我们讨论在提示任务中可能出现的「突现」能力。

在此类任务中,预先训练的语言模型会被提示执行下一个单词预测的任务,并通过完成响应来执行任务。

如果没有任何进一步的微调,语言模型通常可以执行训练期间没有看到的任务。

当任务在特定规模阈值下不可预测地从随机性能飙升至高于随机性能时,我们将其称为「突现」任务。

下面我们展示了三个具有「突现」表现的提示任务示例:多步算术、参加大学水平的考试和识别单词的预期含义。

在每种情况下,语言模型的表现都很差,对模型大小的依赖性很小,直到达到某个阈值——它们的性能骤升。

对于足够规模的模型,这些任务的性能只会变得非随机——例如,算术和多任务NLU任务的训练每秒浮点运算次数(FLOP)超过10的22次方,上下文任务中单词的训练FLOP超过10的24次方。

「突现」提示策略


第二类「突现」能力包括增强语言模型能力的提示策略。

提示策略是用于提示的广泛范式,可应用于一系列不同的任务。当它们对小型模型失败并且只能由足够大的模型使用时,它们被认为是可「突现」的。

思维链提示是「突现」提示策略的一个典型示例,提示模型在给出最终答案之前生成一系列中间步骤。

思维链提示使语言模型能够执行需要复杂推理的任务,例如多步数学单词问题。

值得一提的是,模型无需经过明确培训即可获得思维链推理的能力,下图则显示了一个思维链提示的示例。

思维链提示的实证结果如下所示。

对于较小的模型,应用思维链提示并不会优于标准提示,例如当应用于GSM8K时,这是一个具有挑战性的数学文字问题基准。

然而对于大型模型,思维链提示在GSM8K上达到了57%的解决率,在我们的测试中性能显著提升。

研究「突现」能力的意义


那么研究「突现」能力,又究竟有什么意义呢?

识别大型语言模型中的「突现」能力,是理解此类现象及其对未来模型能力的潜在影响的第一步。

例如,由于「突现」小样本提示能力和策略没有在预训练中明确编码,研究人员可能不知道当前语言模型的小样本提示能力的全部范围。

此外,进一步扩展是否会潜在地赋予更大的模型「突现」能力,这个问题同样十分重要。

为什么会出现「突现」能力?

当某些能力出现时,语言模型的新现实世界应用会被解锁吗?

由于计算资源昂贵,能否在不增加扩展性的情况下通过其他方法解锁突现」能力(例如更好的模型架构或训练技术)?

研究人员表示,这些问题尚且不得而知。

不过随着NLP领域的不断发展,分析和理解语言模型的行为,包括由缩放产生的「突现」能力,是十分重要的。

参考资料:

https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html

https://the-decoder.com/google-explores-emergent-abilities-in-large-ai-models/

https://the-decoder.com/deeper-insights-for-ai-language-models-chain-of-thought-prompting-as-a-key-factor/

相关文章
|
13天前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
184 1
|
14天前
|
人工智能 自然语言处理 机器人
AI大战因Claude 3而升温,自称拥有接近人类的能力
AI大战因Claude 3而升温,自称拥有接近人类的能力
|
1月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
49 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
人工智能
警惕AI换脸技术:近期诈骗事件揭示的惊人真相
警惕AI换脸技术:近期诈骗事件揭示的惊人真相
192 0
|
人工智能 监控 机器人
OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大
OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大
|
人工智能 自然语言处理 安全
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
152 0
|
机器学习/深度学习 数据采集 自然语言处理
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
101 0
|
数据采集 机器学习/深度学习 人工智能
AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现
可以看出在样本量还算大的情况下,预训练方式更有优势(准确率略高一点且训练更快一些),通过AITrust可信分析:稀疏数据筛选、脏数据清洗、数据增强等方案看到模型性能都有提升; 这里提升不显著的原因是,这边没有对筛选出来数据集进行标注:因为没有特定背景知识就不花时间操作了,会导致仍会有噪声存在。相信标注完后能提升3-5%点 1. 对于大多数任务,我们使用预训练模型微调作为首选的文本分类方案:准确率较高,训练较快 2. 提示学习(Prompt Learning)适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中,相比于预训练模型微调学习,提示学习能取得更好的效果。对于标注样本充足、标
|
机器学习/深度学习 数据采集 人工智能
深度学习变天,模型越做越小!Google发布FLAN,模型参数少400亿,性能超越GPT-3
你是否抱怨过深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!最近Google发布了一个新的语言模型FLAN,或许能在深度学习中带来新的发展趋势,它相比GPT-3少了400亿参数,性能还更强!
253 0
深度学习变天,模型越做越小!Google发布FLAN,模型参数少400亿,性能超越GPT-3
|
机器学习/深度学习 人工智能 算法
全球女性福音!DeepHealth深度学习模型检测乳腺癌完胜5名放射科医师
深度学习在乳腺癌检测上再获突破!DeepHealth与全球多个知名机构合作,研发出的深度模型在乳腺癌诊断水平上完胜5名全日制放射科医师。该模型也可广泛适用于中国人群,有望全面提升全球女性乳腺癌筛查准确性。
160 0
全球女性福音!DeepHealth深度学习模型检测乳腺癌完胜5名放射科医师