本科生60行代码教你手搓GPT大模型,技术介绍堪比教程(2)

简介: 本科生60行代码教你手搓GPT大模型,技术介绍堪比教程

接下来介绍基础神经网络,这一部分就更加基础了,主要包括 GELU、Softmax 函数以及 Layer Normalization 和 Linear。

每一小部分都有代码示例,例如在 Linear 部分,作者展示了标准矩阵乘法 + 偏置:


线性层从一个向量空间投影到另一个向量空间的代码如下:

GPT 架构

这部分介绍 GPT 自身架构。

Transformer 架构如下:

Transformer 仅使用解码器堆栈(图的右侧部分):需要注意,由于摆脱了编码器,中间的交叉注意力层也被删除了。

在高层次上,GPT 体系架构有以下三个部分:

  • 文本 + 位置嵌入;
  • Transformer 解码器堆栈;
  • 投影到词汇表。


代码就像下面这样:

代码部分截图

接下来更详细地分解以上三个部分中的每一个部分,这里也不再赘述。

以上就是作者对 GPT 的实现,接下来就是将它们组合在一起并运行代码,得到 gpt2.py。它的全部内容只有 120 行代码(如果删除注释和空格,则为 60 行)。

作者通过以下方式测试结果:

输出结果如下:

正如作者说的:这次实验成功了。

本文只是跟着作者的思路大概介绍了整体流程,想要了解更多内容的小伙伴,可以参考原文链接。

原文链接:https://jaykmody.com/blog/gpt-from-scratch/#basic-layers

相关文章
|
9天前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
|
1月前
|
知识图谱
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
|
10天前
|
机器学习/深度学习 人工智能 IDE
Cursor免费 GPT-4 IDE 工具的保姆级使用教程
本文介绍了Cursor这一基于人工智能技术的代码生成工具,包括其特点(利用自然语言处理和深度学习算法,可生成高质量代码,支持多种编程语言,能在多种操作系统上运行)及使用教程。教程内容涵盖下载(通过官网获取对应系统版本并安装)、初始化配置(如配置快捷键、AI指定语言,导入VS Code扩展,设置数据偏好,登录/注册)、安装插件(设置Cursor中文、配置gitee)、配置模型和Key(选择模型、配置密钥、自定义模型并进行测试)以及如何使用(打开提示词面板)等步骤。
84 6
 Cursor免费 GPT-4 IDE 工具的保姆级使用教程
|
22天前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
38 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
21天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
1月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
32 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑
随着科技的飞速发展,人工智能(AI)领域正迎来一场前所未有的革命。近日,OpenAI首席技术官米拉·穆拉蒂在采访中透露,新一代大语言模型GPT-5将在一年半后发布,这一消息无疑在科技界掀起了巨大的波澜。GPT-5的即将登场,预示着AI技术将迈入一个新的时代,我们的工作和日常生活也将随之发生深刻的变化。 GPT-5的发布,将为我们带来前所未有的智能体验。穆拉蒂将其与高中生到博士生的成长相比,可见其在智能水平上的巨大飞跃。GPT-5将具备更高的智能水平,能够处理更为复杂、精细的任务,如高级数据分析、自动化编程、智能内容生成等。这将极大地提高各行各业的工作效率,推动社会生产力的快速发展。
42 4
|
1月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
23 1
|
30天前
|
数据采集 SQL 人工智能
如何基于gpt模型抢先打造成功的产品
如何基于gpt模型抢先打造成功的产品
|
1月前
|
知识图谱 缓存
模型遇见知识图谱问题之ARTIST模型通过GPT生成图像序列的问题如何解决
模型遇见知识图谱问题之ARTIST模型通过GPT生成图像序列的问题如何解决

热门文章

最新文章