7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数(1)

简介: 7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数
本周论文包括 DeepMind 用 AI 复原古希腊铭文,登 Nature 封面;微软联合 OpenAI 提出超参数调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。


目录:

Restoring and attributing ancient texts using deep neural networks

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Rediscovering orbital mechanics with machine learning

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Do We Really Need Deep Learning Models for Time Series Forecasting?

HCSC: Hierarchical Contrastive Selective Coding

Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Restoring and attributing ancient texts using deep neural networks


摘要:在最新一期 Nature 封面文章中,DeepMind 联合威尼斯大学人类学系、牛津大学经典学院的研究者,探索利用机器学习来帮助历史学家更好地解释这些铭文,从而让人们更深入地了解古代历史,并释放 AI 和历史学家之间合作的潜力。

他们提出了首个可以恢复受损铭文缺失文本、识别原始位置并帮助确定创建日期的深度神经网络 —— Ithaca,它是以荷马史诗《奥德赛》中的希腊伊萨卡岛命名,在之前的 Pythia 工具上构建并进行了扩展。

研究结果表明,当单独使用时,Ithaca 在恢复受损铭文文本方面的准确率达到了 62%。相比之下,参与的历史学家的准确率为 25%,不过他们使用 Ithaca 可以将这一数字提升到 72%。

同时,Ithaca 在识别铭文原始位置方面的准确率达到了 71%,鉴定它们的年代只与真实日期范围相差不到 30 年。历史学家已经使用 Ithaca 重新评估了希腊历史上的重要时期。

此外,为了让广大研究人员、教育工作者、博物馆职员及其他人使用他们的研究成果,DeepMind 与谷歌云、谷歌艺术与文化合作推出了 Ithaca 的免费交互版本。并且,DeepMind 还开源了代码、预训练模型和交互 Colab 笔记本。

模型核心为稀疏自注意力机制,用来并行计算这两个输入(单词和单个字符)。


Ithaca 的主干由堆叠的 transformer 块组成:每个块输出一系列处理后的表示,其长度等于输入字符的数量,每个块的输出成为下一个块的输入。主干的最终输出被传递给三个不同的任务头,分别处理恢复、地理归属和时间归属。每个头都由一个浅层前馈神经网络组成,专门针对每个任务进行训练。在图 2 所示的例子中,恢复头预测了三个丢失的字符;地理归属头将铭文分为 84 个区域,并且按时间顺序的归属头将其追溯到公元前 800 年至公元 800 年之间。


推荐:预测过去?DeepMind 用 AI 复原古希腊铭文,登 Nature 封面。

论文 2:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer


摘要:来自微软和 OpenAI 的研究者首次提出了基础研究如何调优大型神经网络(这些神经网络过于庞大而无法多次训练)。他们通过展示特定参数化保留不同模型大小的最佳超参数来实现这一点。利用 µP (Maximal Update Parametrization)将 HP (超参数)从小型模型迁移到大型模型。也就是说,该研究在大型模型上获得了接近最优的 HP。

具体而言,该研究证明,在 µP 中,即使模型大小发生变化,许多最优的 HP 仍保持稳定。这导致一种新的 HP 调优范式:µTransfer,即在 µP 中对目标模型进行参数化,并在较小的模型上间接调优 HP,将其零样本迁移到全尺寸模型上,无需调优后者。该研究在 Transformer 和 ResNet 上验证 µTransfer,例如,1)通过从 13M 参数的模型中迁移预训练 HP,该研究优于 BERT-large (350M 参数),总调优成本相当于一次预训练 BERT-large;2)通过从 40M 参数迁移,该研究的性能优于已公开的 6.7B GPT-3 模型,调优成本仅为总预训练成本的 7%。

与随机初始化不同,模型训练期间的行为更难进行数学分析。该研究用 µP 解决,如图 1 右侧所示,该图显示了网络激活扩展(activation scales)在模型宽度增加的最初几个训练步骤中的稳定性。

图 1:在 PyTorch 的默认参数化中,左图,在经过一次 step 训练后,激活扩展的宽度会出现差异。但是在右图的 µP 中,无论训练 step 宽度如何,激活扩展都会发生一致的变化。

如图所示,µP 是唯一在宽度上保持最佳学习率的参数化,在宽度为 213 - 8192 的模型中实现了最佳性能,并且对于给定的学习率,更宽的模型性能更好——即曲线不相交。

基于张量程序(Tensor Programs)的理论基础,µTransfer 自动适用于高级架构,例如 Transformer 和 ResNet。此外,它还可以同时迁移各种超参数。

推荐:微软联合 OpenAI 提出 HP 调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。

论文 3:Rediscovering orbital mechanics with machine learning


摘要:机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构,以及蛋白质功能预测。机器学习强大的学习能力,我们不禁会问,机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律?

近日来自萨塞克斯大学、伦敦大学学院等机构的研究者在论文《 Rediscovering orbital mechanics with machine learning 》中对上述问题进行的解答,他们的回答是:可以。

具体而言,该研究提出了一种采用机器学习方法,通过观察自动发现实际物理系统的控制方程和隐藏属性。研究者训练了一个图神经网络,通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。然后,他们使用符号回归来发现神经网络隐式学习的力学定律解析表达式,结果表明表达式等效于牛顿万有引力定律。

该研究分为两个阶段:第一阶段的学习模拟器基于图网络 (GN),图网络是一种深度神经网络,可以通过训练来逼近图上的复杂函数。在这里,太阳系的太阳、行星和卫星的(相对)位置和速度被表示为输入图的节点,而天体之间可能的物理交互(例如力)被表示为图的边。该研究将基于 GN 的模拟器与 30 年来观测到的太阳系轨迹进行了拟合。

在第二阶段,该研究分离边函数(edge function),并应用符号回归拟合边函数的解析公式,其最好的拟合是对牛顿万有引力定律的拟合。然后,该研究使用已发现的方程重新拟合未观察到的(相对)天体质量,并找到了与天体真实质量几乎完美的拟合。之后研究者可以使用发现的方程和重新学习的质量来模拟太阳系动力学,并获得与真实观察到的轨迹非常接近的对应关系。


推荐:给 GNN 一堆数据,它自己发现了万有引力定律。

论文 4:End-to-End Referring Video Object Segmentation with Multimodal Transformers


摘要:在被 CVPR 2022 接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,来自以色列理工学院的研究者提出了一种简单的、基于 Transformer 的端到端 RVOS 方法——Multimodal Tracking Transformer(MTTR )。

具体地,他们使用 MTTR 将任务建模成序列预测问题。给定一个视频和文本查询,该模型在确定文本参考的对象之前为视频中所有对象生成预测序列。并且,他们的方法不需要与文本相关的归纳偏置模块,利用简单的交叉熵损失对齐视频和文本。因此,该方法相比以往简单的多。

研究者提出的 pipeline 示意图如下所示。首先使用标准的 Transformer 文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。然后为了确定哪个预测序列能够最好地对应参考对象,研究者计算了每个序列的文本参考分数。为此,他们还提出了一种时序分割 voting 方案,使模型在做出决策时专注于最相关的部分。


从实验结果来看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了 + 5.7 和 + 5.0 的 mAP 增益,同时每秒能够处理 76 帧。

研究者还展示了一系列不同对象之间的实际分割效果,如下穿白色 T 恤和蓝色短裤的冲浪者(淡黄色冲浪板)。


实例分割过程如图 2 所示:


推荐:单 GPU 每秒 76 帧,重叠对象也能完美分割,多模态 Transformer 用于视频分割效果惊艳。

论文 5:Do We Really Need Deep Learning Models for Time Series Forecasting?



相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3天前
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
141 58
|
8天前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
126 60
|
1天前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
10天前
|
机器学习/深度学习 人工智能
谷歌AI天气神算登Nature:30秒模拟22天天气,效率暴涨10万倍!
【8月更文挑战第9天】NeuralGCM是由谷歌AI团队开发的革命性天气预测模型,结合机器学习与传统大气物理模型,大幅提高了预测效率与准确性。它能在30秒内完成22天的天气模拟,效率比传统模型提升10万倍。NeuralGCM通过学习大量历史数据,其1至10天内的预测精度媲美甚至超过顶级模型,在极端天气预测方面也有出色表现。尽管尚存局限,如长期气候预测的精确度待提升,但NeuralGCM展现了在应对气候变化及气象挑战中的巨大潜力。【论文链接:https://www.nature.com/articles/s41586-024-07744-y】
25 7
|
18天前
|
机器学习/深度学习 人工智能 算法
在 AI Native 环境中实现自动超参数优化的微调方法
【8月更文第1天】随着人工智能技术的不断发展,深度学习模型的训练变得越来越复杂。为了达到最佳性能,需要对模型进行微调,特别是对超参数的选择。本文将探讨如何在 AI Native 环境下使用自动化工具和技术来优化模型的微调过程。
39 5
|
18天前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
72 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
85 9
|
30天前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。
|
1月前
|
人工智能 Serverless 异构计算
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
|
1月前
|
人工智能 算法
国内AI大模型高考数学成绩超GPT-4o
【7月更文挑战第13天】国内AI大模型高考数学成绩超GPT-4o