7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

简介: 7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

本周主要论文包括:首次无残差连接或归一化层也能训练深度 Transformer 的探索性研究,以及 DeepMind携其写代码 AI AlphaCode 登上了 Science 封面,写代码能力不输程序员。


目录:


Competition-level code generation with AlphaCode

Inverse scaling can become U-shaped

FedALA: Adaptive Local Aggregation for Personalized Federated Learning

An Efficient Training Approach for Very Large Scale Face Recognition

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Competition-level code generation with AlphaCode


作者:YUJIA LI 等

论文地址:https://www.science.org/doi/10.1126/science.abq1158


摘要:今年年初,DeepMind 发布了基于 Transformer 的新模型 AlphaCode,该模型实现了大规模代码生成。现在,AlphaCode 又在《Science》上发表了新论文,研究登上《Science》封面。


推荐:DeepMind 携 AlphaCode 登 Science 封面,写代码能力不输程序员。


论文 2:Inverse scaling can become U-shaped


作者:Jason Wei 等

论文地址:https://arxiv.org/pdf/2211.02011.pdf


摘要:语言模型越大,性能越好,这一点已经在很多任务中被证明是正确的。那是否存在一种情况:某些任务的结果会因模型规模的增加反而变得糟糕?谷歌最近发表的一篇论文或许能为我们提供答案。获得 Inverse Scaling 奖励的任务如下:Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。


推荐:模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准。


论文 3:FedALA: Adaptive Local Aggregation for Personalized Federated Learning


作者:Jianqing Zhang 等

论文地址:https://arxiv.org/pdf/2212.01197.pdf


摘要:该论文提出了一种用于联邦学习的自适应本地聚合方法,通过从全局模型中自动捕获客户机所需信息的方式来应对联邦学习中的统计异质性问题。作者对比了 11 个 SOTA 模型,并取得了超越最优方法 3.27% 的优异表现。作者将其中的自适应本地聚合模块应用到其他联邦学习方法上取得了最多 24.19% 的提升。本文被 AAAI 2023 会议收录,下图为自适应本地聚合(ALA)过程。


推荐:超越 SOTA 3.27%,上交大等提出自适应本地聚合新方法。


论文 4:An Efficient Training Approach for Very Large Scale Face Recognition


作者:Kai Wang 等

论文地址:https://arxiv.org/pdf/2105.10375.pdf


摘要:本文主要介绍了超大规模分类框架的现有解决方案,以及低成本分类框架 FFC 的相应原理及 trick 介绍。本文被 CVPR 2022 会议收录,下图为 SOTA 方法比较。


推荐:达摩院开源低成本大规模分类框架 FFC。


论文 5:Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation


作者:匿名

论文地址:https://openreview.net/pdf?id=NPrsUQgMjKK


摘要:ICLR 2023 盲审阶段的这篇论文首次证明了无需残差连接或归一化层时也可能成功训练深度 transformer。为此,他们研究了深度无残差 transformer 中的信号传播和秩崩溃问题,并推导出三种方法来阻止它们。


具体而言,方法中使用了以下组合:参数初始化、偏置矩阵和位置相关的重缩放,并强调了 transformer 中信号传播特有的几种复杂性,包括与位置编码和因果掩蔽的交互。研究者实证证明了他们的方法可以生成可训练的深度无残差 transformer。


推荐:ICLR 盲审阶段就被评审赞不绝口的论文:会是 Transformer 架构的一大创新吗?


论文 6:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale


作者:Yuxin Fang 等

论文地址:https://arxiv.org/pdf/2211.07636.pdf


摘要:智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。



推荐:10 亿参数、多项 SOTA,智源开源视觉基础模型 EVA。


论文 7:Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket


作者:Nianhui Guo 等

论文地址:https://arxiv.org/pdf/2211.12933.pdf%E3%80%81


摘要:来自德国 Hasso Plattner 计算机系统工程研究院的 Nianhui Guo 和 Haojin Yang 等研究者提出了 BNext 模型,成为第一个在 ImageNet 数据集上 top1 分类准确率突破 80% 的 BNN。下图为基于 ImageNet 的 SOTA BNN 性能对比。、


推荐:首个在 ImageNet 上精度超过 80% 的二值神经网络 BNext 问世。

相关文章
|
3天前
|
人工智能 自然语言处理 IDE
如何让阿里云AI001号员工帮我写代码(含IDEA插件使用)
AI 智能时代,将改变所有人的思维方式,学习方式,更注重人的创造力和思考力,如果你懒,你将会被 AI 替代,如果你只想干简单不用动脑的活,你将会被 AI 替代,如果你只会打螺丝,更会被 AI 替代。当下的 AI 人工智能时代,被认为是第四次工业革命的到来,我们更应该看到的是机会,而非跳进焦虑、困惑、悲观的一群人潮中。
|
8天前
|
人工智能 运维 自然语言处理
对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程
超70%代码问题,单纯靠基座大模型是解决不了的;未来3-5年,人类50%编程工作可以被替代,有些环节甚至完全自动化。蚂蚁集团代码大模型CodeFuse负责人李建国说道。当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。
29 0
|
9天前
|
人工智能 数据可视化 Windows
【AI Agent系列】【LangGraph】3. 一行代码让你的 LangGraph 结构可视化!
【AI Agent系列】【LangGraph】3. 一行代码让你的 LangGraph 结构可视化!
29 0
|
9天前
|
数据采集 人工智能 搜索推荐
【AI大模型应用开发】【综合实战】AI+搜索,手把手带你实现属于你的AI搜索引擎(附完整代码)
【AI大模型应用开发】【综合实战】AI+搜索,手把手带你实现属于你的AI搜索引擎(附完整代码)
9 0
|
9天前
|
人工智能 Python
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
13 0
|
9天前
|
存储 人工智能 API
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
29 0
|
9天前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
31 0
|
9天前
|
人工智能 前端开发 决策智能
【AI Agent系列】【MetaGPT多智能体学习】5. 多智能体案例拆解 - 基于MetaGPT的智能体辩论(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】5. 多智能体案例拆解 - 基于MetaGPT的智能体辩论(附完整代码)
19 0
|
9天前
|
机器学习/深度学习 人工智能 算法
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
17 0
|
9天前
|
人工智能 程序员 API
【AI大模型应用开发】1.0 Prompt Engineering(提示词工程)- 典型构成、原则与技巧,代码中加入Prompt
【AI大模型应用开发】1.0 Prompt Engineering(提示词工程)- 典型构成、原则与技巧,代码中加入Prompt
17 0