7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

简介: 7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

本周主要论文包括:首次无残差连接或归一化层也能训练深度 Transformer 的探索性研究,以及 DeepMind携其写代码 AI AlphaCode 登上了 Science 封面,写代码能力不输程序员。


目录:


Competition-level code generation with AlphaCode

Inverse scaling can become U-shaped

FedALA: Adaptive Local Aggregation for Personalized Federated Learning

An Efficient Training Approach for Very Large Scale Face Recognition

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Competition-level code generation with AlphaCode


作者:YUJIA LI 等

论文地址:https://www.science.org/doi/10.1126/science.abq1158


摘要:今年年初,DeepMind 发布了基于 Transformer 的新模型 AlphaCode,该模型实现了大规模代码生成。现在,AlphaCode 又在《Science》上发表了新论文,研究登上《Science》封面。


推荐:DeepMind 携 AlphaCode 登 Science 封面,写代码能力不输程序员。


论文 2:Inverse scaling can become U-shaped


作者:Jason Wei 等

论文地址:https://arxiv.org/pdf/2211.02011.pdf


摘要:语言模型越大,性能越好,这一点已经在很多任务中被证明是正确的。那是否存在一种情况:某些任务的结果会因模型规模的增加反而变得糟糕?谷歌最近发表的一篇论文或许能为我们提供答案。获得 Inverse Scaling 奖励的任务如下:Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。


推荐:模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准。


论文 3:FedALA: Adaptive Local Aggregation for Personalized Federated Learning


作者:Jianqing Zhang 等

论文地址:https://arxiv.org/pdf/2212.01197.pdf


摘要:该论文提出了一种用于联邦学习的自适应本地聚合方法,通过从全局模型中自动捕获客户机所需信息的方式来应对联邦学习中的统计异质性问题。作者对比了 11 个 SOTA 模型,并取得了超越最优方法 3.27% 的优异表现。作者将其中的自适应本地聚合模块应用到其他联邦学习方法上取得了最多 24.19% 的提升。本文被 AAAI 2023 会议收录,下图为自适应本地聚合(ALA)过程。


推荐:超越 SOTA 3.27%,上交大等提出自适应本地聚合新方法。


论文 4:An Efficient Training Approach for Very Large Scale Face Recognition


作者:Kai Wang 等

论文地址:https://arxiv.org/pdf/2105.10375.pdf


摘要:本文主要介绍了超大规模分类框架的现有解决方案,以及低成本分类框架 FFC 的相应原理及 trick 介绍。本文被 CVPR 2022 会议收录,下图为 SOTA 方法比较。


推荐:达摩院开源低成本大规模分类框架 FFC。


论文 5:Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation


作者:匿名

论文地址:https://openreview.net/pdf?id=NPrsUQgMjKK


摘要:ICLR 2023 盲审阶段的这篇论文首次证明了无需残差连接或归一化层时也可能成功训练深度 transformer。为此,他们研究了深度无残差 transformer 中的信号传播和秩崩溃问题,并推导出三种方法来阻止它们。


具体而言,方法中使用了以下组合:参数初始化、偏置矩阵和位置相关的重缩放,并强调了 transformer 中信号传播特有的几种复杂性,包括与位置编码和因果掩蔽的交互。研究者实证证明了他们的方法可以生成可训练的深度无残差 transformer。


推荐:ICLR 盲审阶段就被评审赞不绝口的论文:会是 Transformer 架构的一大创新吗?


论文 6:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale


作者:Yuxin Fang 等

论文地址:https://arxiv.org/pdf/2211.07636.pdf


摘要:智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。



推荐:10 亿参数、多项 SOTA,智源开源视觉基础模型 EVA。


论文 7:Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket


作者:Nianhui Guo 等

论文地址:https://arxiv.org/pdf/2211.12933.pdf%E3%80%81


摘要:来自德国 Hasso Plattner 计算机系统工程研究院的 Nianhui Guo 和 Haojin Yang 等研究者提出了 BNext 模型,成为第一个在 ImageNet 数据集上 top1 分类准确率突破 80% 的 BNN。下图为基于 ImageNet 的 SOTA BNN 性能对比。、


推荐:首个在 ImageNet 上精度超过 80% 的二值神经网络 BNext 问世。

相关文章
|
26天前
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
63 26
|
27天前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
77 13
|
29天前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
51 12
|
1月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
79 26
|
2月前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
95 8
【AI系统】Transformer 模型小型化
|
2月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
319 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
3月前
|
人工智能 自然语言处理 知识图谱
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快
英伟达提出nGPT(Normalized Transformer),通过单位范数归一化和超球面上的表示学习,显著提升了Transformer模型的训练速度和性能。实验显示,nGPT在处理4k长度序列时,训练速度比传统Transformer快10倍,且在多个下游任务中表现出色。论文地址:https://arxiv.org/pdf/2410.01131
65 12
|
3月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
128 6
|
1天前
|
数据采集 人工智能 安全
阿里云携手DeepSeek,AI应用落地五折起!
近年来,人工智能技术飞速发展,越来越多的企业希望借助AI的力量实现数字化转型,提升效率和竞争力。然而,AI应用的开发和落地并非易事,企业往往面临着技术门槛高、成本投入大、落地效果难以保障等挑战。
24 1

热门文章

最新文章