用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势


特斯拉 AI 总监 Andrej Karpathy 连发多条推文表示,AI 不同领域(视觉、语音、自然语言等)正在打通,融合速度令人惊叹。


今日,特斯拉 AI 总监、Autopilot Vision 团队领导人 Andrej Karpathy 在推特上发文,对 AI 领域正在进行中的融合(consolidation)表示惊叹。

他表示,「10 年前,视觉、语音、自然语言、强化学习等都是完全分离的,甚至没有跨领域的论文。方法也完全不同,通常不是基于机器学习。」

从 2010 年开始,视觉、语言、自然语言、强化学习等领域的壁垒逐渐打破,它们开始转向同一个技术方向,即机器学习,特别是神经网络。它们使用的网络架构具有多样性,但至少论文开始读起来更加相似,基本上都用到了大型数据集和网络优化。

随着 AI 技术的发展,近两年,不同领域模型架构似乎也变得相同起来。很多研究者开始专注于 Transformer 架构,在此基础上做较小的改动以进行研究。

例如 2018 诞生的 GPT,1.17 亿参数;2019 年 GPT-2,15 亿参数;2020 年更是将其扩展到 1750 亿参数 GPT-3。Karpathy 基于 PyTorch,仅用 300 行左右的代码就写出了一个小型 GPT 训练库,并将其命名为 minGPT,这个 minGPT 能够进行加法运算和字符级的语言建模,而且准确率还不错。核心的 minGPT 库包含两个文档:mingpt/model.py 和 mingpt/trainer.py。前者包含实际的 Transformer 模型定义,大约 200 行代码,后者是一个与 GPT 无关的 PyTorch 样板文件,可用于训练该模型。

部分代码截图。

197 行完整代码:https://github.com/karpathy/minGPT/blob/master/mingpt/model.py

随着模型架构的融合,现在,我们可以向模型输入词序列、图像 patch 序列、语音序列、强化学习序列(状态、行为、奖励)。我们可以在条件设置中添加任意 token,这种模式是极其简单、灵活的建模框架。

即使是在某个领域(如视觉)内部,过去在分类、分割、检测和生成任务上存在一些差异。但是,所有这些也正在转换为相同的框架,例如 patch 的检测 take 序列和边界框的输出序列。

现在,区别性特征主要包括以下几个方面:

1)数据2)将自身问题映射到向量序列以及从向量序列映射出自身问题的输入 / 输出规范3)位置编码器的类型以及注意力 mask 中针对特定问题的结构化稀疏模式

所以,从技术上来说,AI 领域的方方面面,包括前景、论文、人才和想法突然之间变得极其相关。每个人基本上都在使用相同的模型,大多数改进和想法可以快速地在所有 AI 领域「复制粘贴」(copy paste)。

正如其他很多人注意到并指出的那样,新大脑皮质(neocortex)在其所有的输入模态中也有一个高度统一的架构。也许自然界偶然发现了一个非常相似的强大架构,并以类似的方式复制了它,并只在一些细节上做了改变。

这种架构上的融合将使我们专注于软硬件和基础设施建设,进一步加速 AI 领域的进展。「无论如何,这是激动人心的时刻。」

对于 Andrej Karpathy 描述的 AI 融合趋势,网友也纷纷发表意见。

推特网友 @Neural Net Nail 表示,「这是一个有价值的见解。融合将加速 AI 领域的创新步伐,在边缘端使用 AI 的尖端产品变得更加可行。我想,变化(variation)才是质量的最大敌人。」

网友 @sisil mehta 也认为,「ML 基础设施迎来了激动人心的时刻。随着模型架构的融合,建模框架和基础设施也将融合。我当然希望 PyTorch Lightning 也会这样。」

网友 @Marcos Pereira 表示,「一方面,处处都在用 transformers,我们已经遇到了障碍,需要创新;另一方面,处处都在用 transformers,所以跟上来吧。」

原文出自 @Andrej Karpathy 的推特:https://twitter.com/karpathy/status/1468370605229547522

相关文章
|
16小时前
|
机器学习/深度学习 人工智能 运维
【AI 初识】监督学习、无监督学习和强化学习定义
【5月更文挑战第2天】【AI 初识】监督学习、无监督学习和强化学习定义
|
2天前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
12 3
|
2天前
|
人工智能 运维 自然语言处理
构建高效自动化运维体系:DevOps与AI的融合之路
【4月更文挑战第30天】在数字化转型的大潮中,企业IT基础设施的复杂性日益增加,传统的运维模式已难以满足快速变化的业务需求。本文深入探讨了如何通过融合DevOps和人工智能(AI)技术构建一个高效、自动化的运维体系。文章首先概述了现代运维面临的挑战,接着分析了DevOps的核心理念以及AI如何在故障预测、智能决策支持等方面提升运维效率。最后,本文提出了一个具体的实施框架,并讨论了在推进过程中可能遇到的挑战及应对策略。
|
3天前
|
人工智能 运维 监控
构建高效自动化运维体系:DevOps与AI的融合实践
【4月更文挑战第30天】 在当今快速迭代的软件开发环境中,高效的自动化运维体系成为确保交付速度和服务质量的关键。本文探讨了如何通过整合DevOps理念和人工智能(AI)技术来构建一个更加智能、高效的运维体系。文章将详细阐述自动化运维的核心组件,以及如何利用AI技术优化这些组件的性能和决策过程。通过实际案例分析,本文展示了这种融合实践在提高运维效率、降低错误率以及提升系统稳定性方面的显著成效。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索Spring AI:将人工智能与软件开发无缝融合
这是一个简单的Spring AI入门示例,演示了如何使用Spring Boot和Spring AI来构建一个简单的机器学习应用程序。通过这个示例,你可以了解到如何利用Spring AI轻松地集成机器学习功能到你的应用程序中。
|
4天前
|
机器学习/深度学习 人工智能 测试技术
自动化测试中AI与机器学习的融合应用
【4月更文挑战第29天】 随着技术的不断进步,人工智能(AI)和机器学习(ML)在软件测试中的应用越来越广泛。本文将探讨AI和ML如何改变自动化测试领域,提高测试效率和质量。我们将讨论AI和ML的基本概念,以及它们如何应用于自动化测试,包括智能测试用例生成,缺陷预测,测试执行优化等方面。最后,我们还将讨论AI和ML在自动化测试中的挑战和未来发展趋势。
|
4天前
|
人工智能 前端开发 算法
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
|
6天前
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
16 2
|
6天前
|
人工智能 数据库 芯片
【报告介绍】中国AI大模型产业:发展现状与未来展望
【4月更文挑战第27天】中国AI大模型产业快速发展,受益于政策支持、技术创新及市场需求,已在电商等领域广泛应用,展现巨大潜力。但面临算力瓶颈、技术局限和数据不足等挑战。未来,AI大模型将向通用化与专用化发展,开源趋势将促进小型开发者参与,高性能芯片升级也将助力产业进步。[报告下载链接](http://download.people.com.cn/jiankang/nineteen17114578641.pdf)
17 2
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口