7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测

推荐:39 亿参数模型公开可用,采样速度 7 倍提升,残差量化生成图片入选 CVPR'22。

论文 4:Exploring Plain Vision Transformer Backbones for Object Detection


摘要:在这项工作中,何恺明等研究者追求的是一个不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这一方向取得成功,仅使用原始 ViT 主干进行目标检测将成为可能。在这一方向上,预训练设计将与微调需求解耦,上游与下游任务的独立性将保持,就像基于 ConvNet 的研究一样。这一方向也在一定程度上遵循了 ViT 的理念,即在追求通用特征的过程中减少归纳偏置。由于非局部自注意力计算可以学习平移等变特征,它们也可以从某种形式的监督或自我监督预训练中学习尺度等变特征。

研究者表示,在这项研究中,他们的目标不是开发新的组件,而是通过最小的调整克服上述挑战。具体来说,他们的检测器仅从一个普通 ViT 主干的最后一个特征图构建一个简单的特征金字塔(如图 1 所示)。这一方案放弃了 FPN 设计和分层主干的要求。为了有效地从高分辨率图像中提取特征,他们的检测器使用简单的非重叠窗口注意力(没有 shifting)。他们使用少量的跨窗口块来传播信息,这些块可以是全局注意力或卷积。这些调整只在微调过程中进行,不会改变预训练。

这种简单的设计收获了令人惊讶的结果。研究者发现,在使用普通 ViT 主干的情况下,FPN 的设计并不是必要的,它的好处可以通过由大步幅 (16)、单一尺度图构建的简单金字塔来有效地获得。他们还发现,只要信息能在少量的层中很好地跨窗口传播,窗口注意力就够用了。

更令人惊讶的是,在某些情况下,研究者开发的名为「ViTDet」的普通主干检测器可以媲美领先的分层主干检测器(如 Swin、MViT)。通过掩蔽自编码器(MAE)预训练,他们的普通主干检测器可以优于在 ImageNet-1K/21K 上进行有监督预训练的分层检测器(如下图 3 所示)。

推荐:何恺明组新论文:只用 ViT 做主干也可以做好目标检测。

论文 5:FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding


摘要:评价准则的差异极大阻碍了已有小样本学习方法基于统一的标准公平比较,也无法客观评价该领域的真实进展。近期,来自清华大学、DeepMind 等团队研究者在论文《FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding》中指出:现有小样本学习方法并不稳定有效,且目前已有工作不存在单一的小样本学习方法能够在大多数 NLU 任务上取得优势性能。小样本自然语言理解领域发展依然面临着严峻的挑战!该工作被 ACL2022 主会接收。

本文贡献如下:

(1) 该研究提出了一个新的小样本自然语言理解评价框架 FewNLU,并且从三个关键方面 (即测试集小样本学习性能、测试集和验证集相关性、以及稳定性) 量化评估该评价准则的优势。 (2) 研究者对该领域相关工作进行重新评估,结果表明:已有工作未准确估计现有小样本学习方法的绝对性能和相对差距;目前尚不存在单一在大多数 NLU 任务取得优势性能的方法;不同方法的增益是优势互补的,最佳组合模型的性能接近于全监督 NLU 系统等关键结论。(3) 此外本文提出 FewNLU,并构建了 Leaderboard,希望帮助促进小样本自然语言理解领域未来研究工作的发展。

本文为小样本自然语言理解提出一种更稳健且有效的评价框架,如算法 1 所示。

该评价框架中有两个关键设计选择,分别是如何构建数据拆分以及确定关键搜索超参数。

推荐:ACL2022 | 清华大学、DeepMind 等指出现有小样本学习方法并不稳定有效,提出评价框架。

论文 6:LANGUAGE MODELING VIA STOCHASTIC PROCESSES


摘要:在近期的一项研究中,斯坦福大学的研究者探索了一种替代方案,该替代方案明确假设了具有 goal-conditioned 生成的简单、固定动态模型。研究者提出了时间控制(Time Control),作为学习已知 goal-conditioned 动态的潜在空间的方法。他们假设非目标导向生成的 meandering 文本在潜在空间内可以表征为布朗运动,这种运动使得相邻句子的嵌入变得更为相似,相距较远的句子相异。借助固定的开始和结束节点,目标导向的行为能够合并进该模型。在这种情况下,布朗运动变为了布朗桥,由此产生的潜在轨迹遵循简单的封闭式动态。

在时间控制中,研究者推导了一个新的对比目标,用于学习一个具有布朗桥动态的潜空间。然后,利用这个潜在空间来生成保持局部连贯性并提高全局连贯性的文本。为了完成文本生成,时间控制首先通过固定在起始点和终止点的布朗桥过程规划一个潜在的轨迹。然后它有条件地使用这个潜在规划生成句子。在本文中,研究者根据时间控制的潜在轨迹,通过微调 GPT2 来解码潜在规划、生成文本。来自时间控制的轨迹作为文档中的抽象语义位置,指导生成精细调整的语言模型。

总体来说,这项研究的贡献包括:

推导了时间控制语言模型,该语言模型用一种新的对比目标学习的布朗桥动态显式地模拟潜在结构。

在一系列文本域中,与针对具体任务的方法相比,时间控制能够生成更多或同样连贯的任务文本,包括文本填充和强制生成长文本。

验证了结论,潜在表征通过评估与人类实验的语篇一致性来竞争性地捕捉文本动态。

同时调整了方法,以理解对比目标的重要性,强化了布朗桥动态,并明确建立潜在动态模型。


推荐:斯坦福 NLP 论文,入选 ICLR 2022 。

论文 7:DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery


摘要:近日,腾讯 AI Lab「云深」平台发布业内首个药物 AI 大型分布外研究框架 DrugOOD,包括数据集整理器(curator)和基准测试(benchmark),以推动药化场景中的分布偏移(distribution shift) 问题研究,助力药物研发行业发展。

「云深」平台的 DrugOOD 提供了方便用户定制的数据整理流程,用户只需修改配置(config)文件中的相关参数,即可重新生成新的数据集。这些数据集可充分利用库存网站 ChEMBL 上多样且持续更新的海量数据。

针对有噪声的分布外学习场景(OOD Learning with Noise),DrugOOD 集成了 5 种域标定方法和 3 种噪声标定水平。5 种域标定方法(scaffold、assay、molecule size、protein、protein family)能够反映药物 AI 中真实的分布偏移场景;3 种噪声标定水平(core、refined、general)根据测量置信度,度量标准,截断噪声等来制定,能够锚定数据中不同的噪声水平。

根据上述自动化数据整理器,该研究生成了总计 96 个样例数据集,构建了包括 Ligand Based Affinity Prediction、Structure Based Affinity Prediction 等在不同设置(偏移因素,预测目标,噪声水平)下的评测任务,用于测试不同方法的鲁棒性能。通过基准测试发现,在 DrugOOD 上现存多种 OOD 算法的分部内 - 分布外(ID-OOD) 分类性能(AUC score)差异达到了 20% 以上,验证了此数据集中域标定和噪声标定方法的真实性和挑战性。

基于 DrugOOD 数据集,腾讯 AI Lab「云深」平台同时发布了全面的评测标准(Benchmark),比较当前各类 OOD 问题研究方法的性能,这些研究包括不同的泛化方法(ERM,IRM,DeepCoral 等),以及不同网络架构(GIN,GCN,BERT 等)。

该算法开发与测试平台已经开源:https://github.com/tencent-ailab/DrugOOD

推荐:业内首个,腾讯 AI Lab「云深」平台开源药物 AI 大型分布外研究框架 DrugOOD。

ArXiv Weekly Radiostation

相关文章
|
11天前
|
消息中间件 人工智能 自然语言处理
基于 RocketMQ 事件驱动架构的 AI 应用实践
基于 RocketMQ 事件驱动架构的 AI 应用实践
|
14天前
|
人工智能 自然语言处理 并行计算
MeteoRA:多任务AI框架革新!动态切换+MoE架构,推理效率提升200%
MeteoRA 是南京大学推出的多任务嵌入框架,基于 LoRA 和 MoE 架构,支持动态任务切换与高效推理。
49 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
352 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
1天前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
2月前
|
机器学习/深度学习 人工智能 并行计算
Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈
Titans 是谷歌推出的新型神经网络架构,通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈,支持并行计算,显著提升训练效率。
121 5
Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈
|
2月前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
334 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
2月前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
91 27
|
2月前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
3月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41584 20
|
3月前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
296 15

热门文章

最新文章