7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数(1)

简介: 7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数
本周论文包括 DeepMind 用 AI 复原古希腊铭文,登 Nature 封面;微软联合 OpenAI 提出超参数调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。


目录:

Restoring and attributing ancient texts using deep neural networks

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Rediscovering orbital mechanics with machine learning

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Do We Really Need Deep Learning Models for Time Series Forecasting?

HCSC: Hierarchical Contrastive Selective Coding

Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Restoring and attributing ancient texts using deep neural networks


摘要:在最新一期 Nature 封面文章中,DeepMind 联合威尼斯大学人类学系、牛津大学经典学院的研究者,探索利用机器学习来帮助历史学家更好地解释这些铭文,从而让人们更深入地了解古代历史,并释放 AI 和历史学家之间合作的潜力。

他们提出了首个可以恢复受损铭文缺失文本、识别原始位置并帮助确定创建日期的深度神经网络 —— Ithaca,它是以荷马史诗《奥德赛》中的希腊伊萨卡岛命名,在之前的 Pythia 工具上构建并进行了扩展。

研究结果表明,当单独使用时,Ithaca 在恢复受损铭文文本方面的准确率达到了 62%。相比之下,参与的历史学家的准确率为 25%,不过他们使用 Ithaca 可以将这一数字提升到 72%。

同时,Ithaca 在识别铭文原始位置方面的准确率达到了 71%,鉴定它们的年代只与真实日期范围相差不到 30 年。历史学家已经使用 Ithaca 重新评估了希腊历史上的重要时期。

此外,为了让广大研究人员、教育工作者、博物馆职员及其他人使用他们的研究成果,DeepMind 与谷歌云、谷歌艺术与文化合作推出了 Ithaca 的免费交互版本。并且,DeepMind 还开源了代码、预训练模型和交互 Colab 笔记本。

模型核心为稀疏自注意力机制,用来并行计算这两个输入(单词和单个字符)。


Ithaca 的主干由堆叠的 transformer 块组成:每个块输出一系列处理后的表示,其长度等于输入字符的数量,每个块的输出成为下一个块的输入。主干的最终输出被传递给三个不同的任务头,分别处理恢复、地理归属和时间归属。每个头都由一个浅层前馈神经网络组成,专门针对每个任务进行训练。在图 2 所示的例子中,恢复头预测了三个丢失的字符;地理归属头将铭文分为 84 个区域,并且按时间顺序的归属头将其追溯到公元前 800 年至公元 800 年之间。


推荐:预测过去?DeepMind 用 AI 复原古希腊铭文,登 Nature 封面。

论文 2:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer


摘要:来自微软和 OpenAI 的研究者首次提出了基础研究如何调优大型神经网络(这些神经网络过于庞大而无法多次训练)。他们通过展示特定参数化保留不同模型大小的最佳超参数来实现这一点。利用 µP (Maximal Update Parametrization)将 HP (超参数)从小型模型迁移到大型模型。也就是说,该研究在大型模型上获得了接近最优的 HP。

具体而言,该研究证明,在 µP 中,即使模型大小发生变化,许多最优的 HP 仍保持稳定。这导致一种新的 HP 调优范式:µTransfer,即在 µP 中对目标模型进行参数化,并在较小的模型上间接调优 HP,将其零样本迁移到全尺寸模型上,无需调优后者。该研究在 Transformer 和 ResNet 上验证 µTransfer,例如,1)通过从 13M 参数的模型中迁移预训练 HP,该研究优于 BERT-large (350M 参数),总调优成本相当于一次预训练 BERT-large;2)通过从 40M 参数迁移,该研究的性能优于已公开的 6.7B GPT-3 模型,调优成本仅为总预训练成本的 7%。

与随机初始化不同,模型训练期间的行为更难进行数学分析。该研究用 µP 解决,如图 1 右侧所示,该图显示了网络激活扩展(activation scales)在模型宽度增加的最初几个训练步骤中的稳定性。

图 1:在 PyTorch 的默认参数化中,左图,在经过一次 step 训练后,激活扩展的宽度会出现差异。但是在右图的 µP 中,无论训练 step 宽度如何,激活扩展都会发生一致的变化。

如图所示,µP 是唯一在宽度上保持最佳学习率的参数化,在宽度为 213 - 8192 的模型中实现了最佳性能,并且对于给定的学习率,更宽的模型性能更好——即曲线不相交。

基于张量程序(Tensor Programs)的理论基础,µTransfer 自动适用于高级架构,例如 Transformer 和 ResNet。此外,它还可以同时迁移各种超参数。

推荐:微软联合 OpenAI 提出 HP 调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。

论文 3:Rediscovering orbital mechanics with machine learning


摘要:机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构,以及蛋白质功能预测。机器学习强大的学习能力,我们不禁会问,机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律?

近日来自萨塞克斯大学、伦敦大学学院等机构的研究者在论文《 Rediscovering orbital mechanics with machine learning 》中对上述问题进行的解答,他们的回答是:可以。

具体而言,该研究提出了一种采用机器学习方法,通过观察自动发现实际物理系统的控制方程和隐藏属性。研究者训练了一个图神经网络,通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。然后,他们使用符号回归来发现神经网络隐式学习的力学定律解析表达式,结果表明表达式等效于牛顿万有引力定律。

该研究分为两个阶段:第一阶段的学习模拟器基于图网络 (GN),图网络是一种深度神经网络,可以通过训练来逼近图上的复杂函数。在这里,太阳系的太阳、行星和卫星的(相对)位置和速度被表示为输入图的节点,而天体之间可能的物理交互(例如力)被表示为图的边。该研究将基于 GN 的模拟器与 30 年来观测到的太阳系轨迹进行了拟合。

在第二阶段,该研究分离边函数(edge function),并应用符号回归拟合边函数的解析公式,其最好的拟合是对牛顿万有引力定律的拟合。然后,该研究使用已发现的方程重新拟合未观察到的(相对)天体质量,并找到了与天体真实质量几乎完美的拟合。之后研究者可以使用发现的方程和重新学习的质量来模拟太阳系动力学,并获得与真实观察到的轨迹非常接近的对应关系。


推荐:给 GNN 一堆数据,它自己发现了万有引力定律。

论文 4:End-to-End Referring Video Object Segmentation with Multimodal Transformers


摘要:在被 CVPR 2022 接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,来自以色列理工学院的研究者提出了一种简单的、基于 Transformer 的端到端 RVOS 方法——Multimodal Tracking Transformer(MTTR )。

具体地,他们使用 MTTR 将任务建模成序列预测问题。给定一个视频和文本查询,该模型在确定文本参考的对象之前为视频中所有对象生成预测序列。并且,他们的方法不需要与文本相关的归纳偏置模块,利用简单的交叉熵损失对齐视频和文本。因此,该方法相比以往简单的多。

研究者提出的 pipeline 示意图如下所示。首先使用标准的 Transformer 文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。然后为了确定哪个预测序列能够最好地对应参考对象,研究者计算了每个序列的文本参考分数。为此,他们还提出了一种时序分割 voting 方案,使模型在做出决策时专注于最相关的部分。


从实验结果来看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了 + 5.7 和 + 5.0 的 mAP 增益,同时每秒能够处理 76 帧。

研究者还展示了一系列不同对象之间的实际分割效果,如下穿白色 T 恤和蓝色短裤的冲浪者(淡黄色冲浪板)。


实例分割过程如图 2 所示:


推荐:单 GPU 每秒 76 帧,重叠对象也能完美分割,多模态 Transformer 用于视频分割效果惊艳。

论文 5:Do We Really Need Deep Learning Models for Time Series Forecasting?



相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
624 26
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1901 5
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
11月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
11月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
11月前
|
机器学习/深度学习 人工智能 资源调度
AI大模型训练管理工具:千亿参数时代的指挥中枢
本内容揭示了大模型训练中三大核心挑战:实验复现难、资源利用率低、合规风险高,并提出“三维控制塔”解决方案,涵盖实验管理、资源调度与合规追踪。推荐Immuta + 板栗看板等工具组合助力不同规模团队实现高效、合规、低成本的AI训练。
|
人工智能 自然语言处理
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。
501 7
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
392 26
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
549 60
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
523 58
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!

热门文章

最新文章