7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测

推荐:39 亿参数模型公开可用,采样速度 7 倍提升,残差量化生成图片入选 CVPR'22。

论文 4:Exploring Plain Vision Transformer Backbones for Object Detection


摘要:在这项工作中,何恺明等研究者追求的是一个不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这一方向取得成功,仅使用原始 ViT 主干进行目标检测将成为可能。在这一方向上,预训练设计将与微调需求解耦,上游与下游任务的独立性将保持,就像基于 ConvNet 的研究一样。这一方向也在一定程度上遵循了 ViT 的理念,即在追求通用特征的过程中减少归纳偏置。由于非局部自注意力计算可以学习平移等变特征,它们也可以从某种形式的监督或自我监督预训练中学习尺度等变特征。

研究者表示,在这项研究中,他们的目标不是开发新的组件,而是通过最小的调整克服上述挑战。具体来说,他们的检测器仅从一个普通 ViT 主干的最后一个特征图构建一个简单的特征金字塔(如图 1 所示)。这一方案放弃了 FPN 设计和分层主干的要求。为了有效地从高分辨率图像中提取特征,他们的检测器使用简单的非重叠窗口注意力(没有 shifting)。他们使用少量的跨窗口块来传播信息,这些块可以是全局注意力或卷积。这些调整只在微调过程中进行,不会改变预训练。

这种简单的设计收获了令人惊讶的结果。研究者发现,在使用普通 ViT 主干的情况下,FPN 的设计并不是必要的,它的好处可以通过由大步幅 (16)、单一尺度图构建的简单金字塔来有效地获得。他们还发现,只要信息能在少量的层中很好地跨窗口传播,窗口注意力就够用了。

更令人惊讶的是,在某些情况下,研究者开发的名为「ViTDet」的普通主干检测器可以媲美领先的分层主干检测器(如 Swin、MViT)。通过掩蔽自编码器(MAE)预训练,他们的普通主干检测器可以优于在 ImageNet-1K/21K 上进行有监督预训练的分层检测器(如下图 3 所示)。

推荐:何恺明组新论文:只用 ViT 做主干也可以做好目标检测。

论文 5:FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding


摘要:评价准则的差异极大阻碍了已有小样本学习方法基于统一的标准公平比较,也无法客观评价该领域的真实进展。近期,来自清华大学、DeepMind 等团队研究者在论文《FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding》中指出:现有小样本学习方法并不稳定有效,且目前已有工作不存在单一的小样本学习方法能够在大多数 NLU 任务上取得优势性能。小样本自然语言理解领域发展依然面临着严峻的挑战!该工作被 ACL2022 主会接收。

本文贡献如下:

(1) 该研究提出了一个新的小样本自然语言理解评价框架 FewNLU,并且从三个关键方面 (即测试集小样本学习性能、测试集和验证集相关性、以及稳定性) 量化评估该评价准则的优势。 (2) 研究者对该领域相关工作进行重新评估,结果表明:已有工作未准确估计现有小样本学习方法的绝对性能和相对差距;目前尚不存在单一在大多数 NLU 任务取得优势性能的方法;不同方法的增益是优势互补的,最佳组合模型的性能接近于全监督 NLU 系统等关键结论。(3) 此外本文提出 FewNLU,并构建了 Leaderboard,希望帮助促进小样本自然语言理解领域未来研究工作的发展。

本文为小样本自然语言理解提出一种更稳健且有效的评价框架,如算法 1 所示。

该评价框架中有两个关键设计选择,分别是如何构建数据拆分以及确定关键搜索超参数。

推荐:ACL2022 | 清华大学、DeepMind 等指出现有小样本学习方法并不稳定有效,提出评价框架。

论文 6:LANGUAGE MODELING VIA STOCHASTIC PROCESSES


摘要:在近期的一项研究中,斯坦福大学的研究者探索了一种替代方案,该替代方案明确假设了具有 goal-conditioned 生成的简单、固定动态模型。研究者提出了时间控制(Time Control),作为学习已知 goal-conditioned 动态的潜在空间的方法。他们假设非目标导向生成的 meandering 文本在潜在空间内可以表征为布朗运动,这种运动使得相邻句子的嵌入变得更为相似,相距较远的句子相异。借助固定的开始和结束节点,目标导向的行为能够合并进该模型。在这种情况下,布朗运动变为了布朗桥,由此产生的潜在轨迹遵循简单的封闭式动态。

在时间控制中,研究者推导了一个新的对比目标,用于学习一个具有布朗桥动态的潜空间。然后,利用这个潜在空间来生成保持局部连贯性并提高全局连贯性的文本。为了完成文本生成,时间控制首先通过固定在起始点和终止点的布朗桥过程规划一个潜在的轨迹。然后它有条件地使用这个潜在规划生成句子。在本文中,研究者根据时间控制的潜在轨迹,通过微调 GPT2 来解码潜在规划、生成文本。来自时间控制的轨迹作为文档中的抽象语义位置,指导生成精细调整的语言模型。

总体来说,这项研究的贡献包括:

推导了时间控制语言模型,该语言模型用一种新的对比目标学习的布朗桥动态显式地模拟潜在结构。

在一系列文本域中,与针对具体任务的方法相比,时间控制能够生成更多或同样连贯的任务文本,包括文本填充和强制生成长文本。

验证了结论,潜在表征通过评估与人类实验的语篇一致性来竞争性地捕捉文本动态。

同时调整了方法,以理解对比目标的重要性,强化了布朗桥动态,并明确建立潜在动态模型。


推荐:斯坦福 NLP 论文,入选 ICLR 2022 。

论文 7:DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery


摘要:近日,腾讯 AI Lab「云深」平台发布业内首个药物 AI 大型分布外研究框架 DrugOOD,包括数据集整理器(curator)和基准测试(benchmark),以推动药化场景中的分布偏移(distribution shift) 问题研究,助力药物研发行业发展。

「云深」平台的 DrugOOD 提供了方便用户定制的数据整理流程,用户只需修改配置(config)文件中的相关参数,即可重新生成新的数据集。这些数据集可充分利用库存网站 ChEMBL 上多样且持续更新的海量数据。

针对有噪声的分布外学习场景(OOD Learning with Noise),DrugOOD 集成了 5 种域标定方法和 3 种噪声标定水平。5 种域标定方法(scaffold、assay、molecule size、protein、protein family)能够反映药物 AI 中真实的分布偏移场景;3 种噪声标定水平(core、refined、general)根据测量置信度,度量标准,截断噪声等来制定,能够锚定数据中不同的噪声水平。

根据上述自动化数据整理器,该研究生成了总计 96 个样例数据集,构建了包括 Ligand Based Affinity Prediction、Structure Based Affinity Prediction 等在不同设置(偏移因素,预测目标,噪声水平)下的评测任务,用于测试不同方法的鲁棒性能。通过基准测试发现,在 DrugOOD 上现存多种 OOD 算法的分部内 - 分布外(ID-OOD) 分类性能(AUC score)差异达到了 20% 以上,验证了此数据集中域标定和噪声标定方法的真实性和挑战性。

基于 DrugOOD 数据集,腾讯 AI Lab「云深」平台同时发布了全面的评测标准(Benchmark),比较当前各类 OOD 问题研究方法的性能,这些研究包括不同的泛化方法(ERM,IRM,DeepCoral 等),以及不同网络架构(GIN,GCN,BERT 等)。

该算法开发与测试平台已经开源:https://github.com/tencent-ailab/DrugOOD

推荐:业内首个,腾讯 AI Lab「云深」平台开源药物 AI 大型分布外研究框架 DrugOOD。

ArXiv Weekly Radiostation

相关文章
|
23天前
|
人工智能 前端开发 编译器
【AI系统】LLVM 架构设计和原理
本文介绍了LLVM的诞生背景及其与GCC的区别,重点阐述了LLVM的架构特点,包括其组件独立性、中间表示(IR)的优势及整体架构。通过Clang+LLVM的实际编译案例,展示了从C代码到可执行文件的全过程,突显了LLVM在编译器领域的创新与优势。
44 3
|
6天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
44 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
18天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
69 32
|
18天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
45 4
【AI系统】计算图优化架构
|
15天前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41470 20
|
2天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
20天前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
84 15
|
24天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
63 12
存储 人工智能 自然语言处理
49 6
|
20天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
37 1