盘点开源大语言模型LLMs

简介: 本文总结了开源大语言模型的发展,从word2vec到Transformer,再到BERT和GPT系列。重点介绍了几个开源GPT项目,如斯坦福的Alpaca、清华的ChatGLM-6B、Vicuna、复旦的MOSS和Lamini,以及mini-GPT4,这些项目致力于以较小参数量接近ChatGPT性能并实现友好部署。各模型特点和相关资源链接亦有提供。5月更文挑战第5天

盘点开源大语言模型LLMs

1.大语言模型演化

yyq-2023-05-15-22-25-19.png

上图是来自Harnessing the Power of LLMs in Practice A Survey on ChatGPT and Beyond, 该图很好的概述了自然语言模型的演化。

由此可知,自然语言处理(NLP)在Transformer出现之前以词向量为代表的模型:word2vec。

所谓word2vec就是一个词用一个紧凑的向量的来表示(而不是一个one-hot编码),可以认为是将一个one-hot映射到一个低维空间中;那如何映射才是有意义?谷歌在Efficient Estimation of Word Representations in Vector Space提出两个方法CBOW和skip-gram。两者的本质区别:

  • CBOW是利用中心词的前面和后面的词(即上下文)来预测该中心词,从而得到一个向量
  • skip-gram是跟进中心词去预测周围的词,skip-gram利用构建中心词矩阵和周围词矩阵,来建立中心词和周围词的关系从而得到词向量

yyq-2023-05-15-22-49-10.png

在Transformer之后,出现了三个较大的分支,一个是以bert为代表的以decoder-only的模型,另一个是以GPT为代表的encoder模型;第三个分支则是encoder+decoder的模型(就是整个Transformer),这里有清华系的GLM和chatGLM

各自的模型特点描述下:

yyq-2023-05-15-22-31-16.png

简要的说:

  • bert模型在预测时是做完形填空,即一句话,遮住某一个词,用未遮住的词来预测遮住的词,bert在预测时知道前面的词和后面的词,这一点和CBOW是很像的

  • GPT模型则是词生成,用前面的词来预测后面的词,显然这比bert要难。

无疑,与人类知识对齐的ChatGPT获得的巨大的成功,但是chatGPT是封闭的,只提供API(GPT3也是封闭的),谷歌的Bard和PaLM也是封闭的。大厂里视乎只有meta提供了大模型的开源,如OPT、BLOOM、LLaMa。

2.开源GPT

有meta在前,开源社区对GPT也做出的很多优秀的工作,目的就是用更小的参数量来逼近chatGPT的效果,同时更友好的部署。

我们来看下有哪些值得关注的开源GPT

  • 斯坦福大学的Alpaca
    首先是斯坦福大学的Alpaca(羊驼),目前的Alpaca模型是根据Self instruction论文中的技术生成的52K指令数据,在7B LLaMA模型进行微调的,并进行了一些修改。效果上,在一项初步的人类评估中,发现Alpaca 7B模型的表现与text-davinci-003(GPT3)模型相似。

yyq-2023-05-17-23-14-26.png

  • 清华系的ChatGLM-6B
    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

    ChatGLM同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) ,INT4 量化级别下最低只需 7GB 显存即可启动微调

  • Vicuna
    Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality。

    受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持

  • MOSS
    MOSS是复旦大学的开源的一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到,精度要求不那么高的话,甚至可以在单张3090显卡上运行
  • Lamini
    Lamini: The LLM engine for rapidly customizing models。来自斯坦福的一群开发者发布了 Lamini,号称可以为每个开发人员提供从 GPT-3 带到 ChatGPT 的超能力;使用Lamini,开发人员使用很多公司、机构的基础模型快速构建定制化模型。

yyq-2023-05-17-23-40-17.png

- https://github.com/lamini-ai/lamini/
  • mini-GPT4
    mini-GPT4提供了在Vicuna-7B上对齐的预训练模型。显存消耗可以低到12GB

yyq-2023-05-17-23-46-54.png

- https://github.com/Vision-CAIR/MiniGPT-4
目录
相关文章
|
敏捷开发 Devops 测试技术
构建软件质量保障体系
构建软件质量保障体系
564 0
|
监控 Oracle 小程序
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)(一)
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)
1284 0
2021 最新版 JDK 1.8 下载与安装 步骤演示 (图示版)(一)
RuntimeError: Given groups=1, weight of size 64 128 1 7, expected input[16,
RuntimeError: Given groups=1, weight of size 64 128 1 7, expected input[16,
3244 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
1086 0
|
人工智能 自然语言处理 API
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
|
自然语言处理 物联网 算法框架/工具
开源大语言模型(LLM)汇总
随着ChatGPT的火爆,越来越多人希望在本地运行一个大语言模型。为此我维护了这个开源大语言模型汇总,跟踪每天不发的大语言模型和精调语言模型。
3327 0
开源大语言模型(LLM)汇总
|
消息中间件 监控 网络协议
什么是中间件?
一、为什么要中间件 计 算机技术迅速发展。从硬件技术看,CPU速度越来越高,处理能力越来越强;从软件技术看,应用程序的规模不断扩大,特别是Internet及WWW的出 现,使计算机的应用范围更为广阔,许多应用程序需在网络环境的异构平台上运行。
1840 65
|
数据安全/隐私保护
Navicat如何将当前连接信息复用另一台电脑
Navicat如何将当前连接信息复用另一台电脑
171 0
|
机器学习/深度学习 人工智能 监控
Landing AI:计算机视觉数据标注AI平台
Landing AI:计算机视觉数据标注AI平台
1007 0
|
运维
服务器数据恢复-RAID5常见故障&raid5数据恢复方案
raid5阵列常见故障: 1、服务器硬件故障或者RAID阵列卡故障; 2、服务器意外断电导致的磁盘阵列故障; 3、服务器RAID阵列阵列磁盘出现物理故障,如:电路板坏、磁头损坏、盘面划伤、坏扇区、固件坏等; 4、误操作导致磁盘盘序出现错误; 5、raid在同步数据或者重建过程中,同组raid阵列中又有其他硬盘掉线导致同步失败。