送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔

大规模预训练模型需要大型 benchmark 来进行验证。


在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中,研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日,谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示,该工作历经两年努力完成,论文长达 100 页,作者有 442 人,目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。


BIG-bench 是一套用于各种规模语言模型评估的新基准测试,谷歌 AI 负责人 Jeff Dean 点赞了这一工作。

论文《Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models》


随着规模的不断扩大,语言模型展示了定量改进和新的定性能力。尽管它们具有潜在的变革性影响,但其表现出的新功能特征仍然很差。为了给未来的研究提供更多信息,为颠覆性的新模型能力做好准备,了解语言模型当前和近期的能力和局限性至关重要。为了应对这一挑战,谷歌提出了超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench)。

BIG-bench 目前由 204 个任务组成,获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为,模型规模跨越数百万到数千亿个参数。

此外,还有一组人类专家执行过所有任务,以提供较准确的基线水平。目前对于各类模型的调查结果包括:模型性能和校准都随规模而提高,但绝对值(absolute term)较差(与评估者性能相比);不同类模型的性能非常相似,但稀疏性有性能增益;逐步和可预测地改进的任务通常涉及大量的知识或记忆部分,而在关键规模上表现出「突破性」行为的任务通常涉及多个步骤或脆弱的指标;在具有模糊背景的环境中,社会偏见通常会随着模型规模的扩大而增加,但可以通过 prompting 来改善。

图 1:在 BIG-bench 上,很多模型总体性能随着体量的增加而提高。但目前看来,所有模型在绝对值(absolute term)方面都表现一般。

图 2:现有基准测试的范围很窄,并且表现出快速饱和的性能。

图 3:BIG-bench 任务的多样性和规模。(a)任务关键词的词云。(b)以样本数量衡量的任务规模分布。


BIG-bench Lite (BBL) 是来自 BIG-bench 的 24 个不同 JSON 任务的一小部分,旨在提供模型性能的规范度量,同时比 BIG-bench 中的 200 多个编程和 JSON 任务的全套评估轻便得多。BBL 上当前模型性能的排行榜如上图所示。

图 4:每个 BIG-bench Lite 任务上的最佳(蓝色)和平均(灰色)人类得分,以及最佳模型配置(栗色)的 BIG-bench Lite 性能。多项选择任务的随机性能由影线标记表示。

谷歌鼓励社区参与者继续提交新的任务,并表示任务将被逐一审查并以滚动方式合并到 BIG-bench 存储库中。任务作者也将包含在未来出版物的作者列表中。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
160 2
|
2天前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
9 2
|
2月前
|
自然语言处理
从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊
【9月更文挑战第12天】近年来,抗体药物在生物医药领域展现出巨大潜力,但其高昂的研发成本和漫长周期成为瓶颈。为此,腾讯与北京大学合作开发了PALM-H3,这是一种基于预训练大语言模型的创新抗体设计方法。PALM-H3将抗体序列视为语言,利用Roformer模型学习其生成规律,实现从头设计高亲和力抗体,不依赖自然抗体,大幅提高研发效率和灵活性。此外,该方法还可广泛应用于疫苗设计和蛋白质工程等领域,加速新药上市。然而,确保抗体体内稳定性和安全性仍是挑战。论文详见:https://www.nature.com/articles/s41467-024-50903-y
48 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
算法金 | 致敬深度学习三巨头:不愧是腾讯,LeNet问的巨细。。。
**LeNet 摘要** - LeNet 是 Yann LeCun 在 1989 年提出的卷积神经网络,用于手写数字识别,是深度学习和计算机视觉的里程碑。 - 网络结构包括卷积层(C1, C3, C5)、池化层(S2, S4)和全连接层(F6),处理 32x32 灰度图像,最终分类为 10 类。 - 卷积层提取特征,池化层降低维度,全连接层负责分类。激活函数主要使用 Sigmoid。 - LeNet 在 MNIST 数据集上表现优秀,但现代网络常使用 ReLU 激活和更深结构。 - LeNet 的局限性包括网络较浅、Sigmoid 梯度消失问题和平均池化,但其创新为后续 CNN 发展铺平道路
51 1
算法金 | 致敬深度学习三巨头:不愧是腾讯,LeNet问的巨细。。。
|
6月前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
97 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
【2月更文挑战第20天】前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
45 2
前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
|
机器学习/深度学习 人工智能 自然语言处理
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
100 0
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
|
人工智能 人机交互
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
115 0
|
机器学习/深度学习 传感器 存储
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
196 0
|
机器学习/深度学习 算法
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
121 0

热门文章

最新文章