一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖

简介: 一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖


目录

一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖


一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖

语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。

近些年,transformer架构逐渐将其影响范围扩展到各种新领域。最初,Transformers是为自然语言处理而开发的,现在正在成为深度学习的瑞士军刀。 2021 年,它们被用来发现药物、识别语音和绘画等任务上。

transformers已经证明擅长视觉任务、预测地震以及分类和生成蛋白质。在过去的一年里,研究人员将它们推向了广阔的新领域。

TransGAN:TransGAN 是一个生成对抗网络,它结合了transformer以确保每个生成的像素与其之前生成的像素一致。这项工作在测量生成的图像与训练数据的相似程度方面取得了最先进的结果。

TimeSformer:Facebook 的 TimeSformer 使用该架构来识别视频剪辑中的动作。它解释视频帧的序列,而不是文本中通常的单词序列。它的性能优于卷积神经网络,可以在更短的时间内分析更长的剪辑片段,并使用更少的功率。

GPT-2:Facebook、Google和加州大学伯克利分校的研究人员在文本上训练了 GPT-2,然后冻结了它的自注意力和前馈层。他们能够针对各种领域进行微调,包括数学、逻辑问题和计算机视觉。

AlphaFold 2:DeepMind 发布了 AlphaFold 2 的开源版本,它使用transformer根据氨基酸序列找到蛋白质的 3D 形状。该模型激发了医学界的兴趣,因为它具有推动药物发现和揭示生物学见解的潜力。

Vision Transformer(ViT)以及Video ViT

Transformer 于 2017 年首次亮相,并迅速改变了语言建模。它的自注意力机制跟踪序列中的每个元素与其他每个元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。基于transformer的大型语言模型已成为新兴基础模型品种的示例——在大型未标记语料库上预训练的模型,可以针对有限数量的标记示例对专门任务进行微调。transformer在各种领域都能很好地工作的事实,可能预示着超越语言的基于transformer的基础模型。

  深度学习的历史已经见证了一些迅速普及的想法:ReLU 激活函数、Adam 优化器、注意力机制和现在的transformer。过去一年的发展表明,这种架构仍在发挥作用。

参考文章https://read.deeplearning.ai/the-batch/issue-123/


相关文章
|
21天前
|
机器学习/深度学习 编解码 人工智能
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。
140 83
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
25 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
9天前
|
人工智能 Linux API
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。
78 8
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
|
20天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
77 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
24天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
76 32
|
24天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
53 4
【AI系统】计算图优化架构
|
21天前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41486 20
|
5天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
110 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
8天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
26天前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
96 15

热门文章

最新文章