备案控制台

开发者社区机器之心文章正文

本科生60行代码教你手搓GPT大模型，技术介绍堪比教程（2）

2023-05-24 167

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本科生60行代码教你手搓GPT大模型，技术介绍堪比教程

接下来介绍基础神经网络，这一部分就更加基础了，主要包括 GELU、Softmax 函数以及 Layer Normalization 和 Linear。

每一小部分都有代码示例，例如在 Linear 部分，作者展示了标准矩阵乘法 + 偏置：

线性层从一个向量空间投影到另一个向量空间的代码如下：

GPT 架构

这部分介绍 GPT 自身架构。

Transformer 架构如下：

Transformer 仅使用解码器堆栈（图的右侧部分）：需要注意，由于摆脱了编码器，中间的交叉注意力层也被删除了。

在高层次上，GPT 体系架构有以下三个部分：

文本 + 位置嵌入；
Transformer 解码器堆栈；
投影到词汇表。

代码就像下面这样：

代码部分截图

接下来更详细地分解以上三个部分中的每一个部分，这里也不再赘述。

以上就是作者对 GPT 的实现，接下来就是将它们组合在一起并运行代码，得到 gpt2.py。它的全部内容只有 120 行代码（如果删除注释和空格，则为 60 行）。

作者通过以下方式测试结果：

输出结果如下：

正如作者说的：这次实验成功了。

本文只是跟着作者的思路大概介绍了整体流程，想要了解更多内容的小伙伴，可以参考原文链接。

原文链接：https://jaykmody.com/blog/gpt-from-scratch/#basic-layers

文章标签：

机器学习/深度学习

关键词：

GPT教程

-开发达人-

目录

相关文章

土木林森

|

2月前

|

机器学习/深度学习人工智能自然语言处理

当语言遇见智慧火花：GPT家族历代模型大起底，带你见证从平凡到卓越的AI进化奇迹！

【10月更文挑战第6天】随着自然语言处理技术的进步，GPT系列模型（Generative Pre-trained Transformers）成为该领域的明星。从GPT-1的开创性工作，到GPT-2在规模与性能上的突破，再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力，以及社区驱动的GPT-NeoX，这些模型不断进化。虽然它们展现出强大的语言理解和生成能力，但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点，并通过示例代码展示其部分功能。

土木林森

152 2 2

楠竹11

|

2月前

|

数据采集 API 决策智能

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE，一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据，显著提升大型语言模型（LLM）的功能调用能力。实验结果显示，使用ToolACE数据训练的80亿参数模型性能媲美GPT-4，在伯克利功能调用排行榜上获得开源第一。

楠竹11

88 4 4

魔搭ModelScope社区小助手

|

15天前

|

数据采集人工智能数据可视化

InternVL 2.5，首个MMMU超过70%的开源模型，性能媲美GPT-4o

近期Internvl2.5发布，性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美，成为首个在MMMU上超过70%的开源模型，通过链式思考（CoT）推理实现了3.7个百分点的提升，展示了强大的测试时间可扩展性潜力。

魔搭ModelScope社区小助手

130 25 27

探索云世界

|

1月前

|

自然语言处理搜索推荐 Serverless

基于函数计算部署GPT-Sovits模型实现语音生成

阿里云开发者社区邀请您参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动。完成指定任务即可获得收纳箱一个。活动时间从即日起至2024年12月13日24:00:00。快来报名吧！

探索云世界

54 8 8

穿过生命散发芬芳

|

1月前

|

弹性计算自然语言处理搜索推荐

活动实践 | 基于函数计算部署GPT-Sovits模型实现语音生成

通过阿里云函数计算部署GPT-Sovits模型，可快速实现个性化声音的文本转语音服务。仅需少量声音样本，即可生成高度仿真的语音。用户无需关注服务器维护与环境配置，享受按量付费及弹性伸缩的优势，轻松部署并体验高质量的语音合成服务。

穿过生命散发芬芳

59 6 6

oioihoii

|

8天前

|

人工智能 API Windows

免费部署本地AI大语言模型聊天系统：Chatbox AI + 马斯克grok2.0大模型（简单5步实现，免费且比GPT4.0更好用）

本文介绍了如何部署本地AI大语言模型聊天系统，使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型，最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布，支持超长文本上下文理解，免费且易于使用。

oioihoii

40 0 0

想飞的雪糕

|

2月前

|

机器学习/深度学习弹性计算人工智能

大模型进阶微调篇（三）：微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型，包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码，即使在无独显的设备上也能完成微调，耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容，适合初学者参考。

想飞的雪糕

460 6 7

楠竹11

|

2月前

|

机器学习/深度学习人工智能自然语言处理

开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

【10月更文挑战第20天】近日，开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员，GPT-4o在性能和多模态数据处理方面实现了显著提升，得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。

楠竹11

65 3 3

楠竹11

|

2月前

|

机器学习/深度学习测试技术

ACL杰出论文奖：GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究，旨在解决大模型在心智理论（ToM）上的不足。他们发布了首个MMToM-QA多模态ToM测试集，并提出BIP-ALM方法，从多模态数据中提取统一表示，结合语言模型进行贝叶斯逆规划，显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路，尽管仍面临一些局限性和技术挑战。论文详情见：https://arxiv.org/abs/2401.08743。

楠竹11

52 6 6

武子康

|

2月前

|

API

2024-05-14 最新！OpenAI 新模型 GPT-4 omni 简单测试，4o速度确实非常快！而且很便宜！

2024-05-14 最新！OpenAI 新模型 GPT-4 omni 简单测试，4o速度确实非常快！而且很便宜！

武子康

54 0 0

热门文章

最新文章

【玩转AIGC系列】使用Megatron-Deepspeed训练GPT-2并生成文本

基于单机最高能效270亿参数GPT模型的文本生成与理解

Paper：GPT-3《 Language Models are Few-Shot Learners》的翻译与解读（三）

终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了

GPT- BI在中国一汽上线，大模型技术融入数智化转型

How to convert Windows 7 on MBR/BIOS to GPT/UEFI

如何微调GPT-2生成高质量的歌词

Paper：GPT-3《 Language Models are Few-Shot Learners》的翻译与解读(四)

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

GPT-4得不到MIT学位，MIT研究团队回应「作弊」，但网友不买账

8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

[GPT-2]论文解读：Language Models are Unsupervised Multitask Learners

Baichuan 3 通用能力评测国内第一，知识百科能力超越GPT-4-Turbo

OpenAI GPT-4 Turbo发布：开创AI新时代

百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4

科技周报 | GPT商店上线即乱；大模型可被故意“教坏”？

编程领域长期霸榜的GPT之设计奥秘

解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“

微软Phi-3，3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美，量化后还可直接在IPhone中运行

【Python+微信】【企业微信开发入坑指北】4. 企业微信接入GPT，只需一个URL，自动获取文章总结

相关课程

更多

天池leetcode编程基础课

人人都能学｜AI大模型通识课程

【科技少年】“天池杯”AI领航计划·高级挑战教程（赛题及baseline解读）

技术人成长路线

【科技少年】Python绘画编程第一课

跨越N次元一键变身AI漫画人

相关电子书

更多

长安十二时辰背后的技术秘籍

大数据可视化与自然之美

超越感官，沉浸赛场——大型体育赛事云上实战精选

相关实验场景

更多

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

如何快速训练大模型

如何快速体验调用通义大模型

奥运时刻！零代码生成奥运风格AI写真。

在云上部署ChatGLM2-6B大模型（GPU版）

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

下一篇

DataWorks售前咨询