盘点开源大语言模型LLMs

简介: 本文总结了开源大语言模型的发展,从word2vec到Transformer,再到BERT和GPT系列。重点介绍了几个开源GPT项目,如斯坦福的Alpaca、清华的ChatGLM-6B、Vicuna、复旦的MOSS和Lamini,以及mini-GPT4,这些项目致力于以较小参数量接近ChatGPT性能并实现友好部署。各模型特点和相关资源链接亦有提供。5月更文挑战第5天

盘点开源大语言模型LLMs

1.大语言模型演化

yyq-2023-05-15-22-25-19.png

上图是来自Harnessing the Power of LLMs in Practice A Survey on ChatGPT and Beyond, 该图很好的概述了自然语言模型的演化。

由此可知,自然语言处理(NLP)在Transformer出现之前以词向量为代表的模型:word2vec。

所谓word2vec就是一个词用一个紧凑的向量的来表示(而不是一个one-hot编码),可以认为是将一个one-hot映射到一个低维空间中;那如何映射才是有意义?谷歌在Efficient Estimation of Word Representations in Vector Space提出两个方法CBOW和skip-gram。两者的本质区别:

  • CBOW是利用中心词的前面和后面的词(即上下文)来预测该中心词,从而得到一个向量
  • skip-gram是跟进中心词去预测周围的词,skip-gram利用构建中心词矩阵和周围词矩阵,来建立中心词和周围词的关系从而得到词向量

yyq-2023-05-15-22-49-10.png

在Transformer之后,出现了三个较大的分支,一个是以bert为代表的以decoder-only的模型,另一个是以GPT为代表的encoder模型;第三个分支则是encoder+decoder的模型(就是整个Transformer),这里有清华系的GLM和chatGLM

各自的模型特点描述下:

yyq-2023-05-15-22-31-16.png

简要的说:

  • bert模型在预测时是做完形填空,即一句话,遮住某一个词,用未遮住的词来预测遮住的词,bert在预测时知道前面的词和后面的词,这一点和CBOW是很像的

  • GPT模型则是词生成,用前面的词来预测后面的词,显然这比bert要难。

无疑,与人类知识对齐的ChatGPT获得的巨大的成功,但是chatGPT是封闭的,只提供API(GPT3也是封闭的),谷歌的Bard和PaLM也是封闭的。大厂里视乎只有meta提供了大模型的开源,如OPT、BLOOM、LLaMa。

2.开源GPT

有meta在前,开源社区对GPT也做出的很多优秀的工作,目的就是用更小的参数量来逼近chatGPT的效果,同时更友好的部署。

我们来看下有哪些值得关注的开源GPT

  • 斯坦福大学的Alpaca
    首先是斯坦福大学的Alpaca(羊驼),目前的Alpaca模型是根据Self instruction论文中的技术生成的52K指令数据,在7B LLaMA模型进行微调的,并进行了一些修改。效果上,在一项初步的人类评估中,发现Alpaca 7B模型的表现与text-davinci-003(GPT3)模型相似。

yyq-2023-05-17-23-14-26.png

  • 清华系的ChatGLM-6B
    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

    ChatGLM同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) ,INT4 量化级别下最低只需 7GB 显存即可启动微调

  • Vicuna
    Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality。

    受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持

  • MOSS
    MOSS是复旦大学的开源的一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到,精度要求不那么高的话,甚至可以在单张3090显卡上运行
  • Lamini
    Lamini: The LLM engine for rapidly customizing models。来自斯坦福的一群开发者发布了 Lamini,号称可以为每个开发人员提供从 GPT-3 带到 ChatGPT 的超能力;使用Lamini,开发人员使用很多公司、机构的基础模型快速构建定制化模型。

yyq-2023-05-17-23-40-17.png

- https://github.com/lamini-ai/lamini/
  • mini-GPT4
    mini-GPT4提供了在Vicuna-7B上对齐的预训练模型。显存消耗可以低到12GB

yyq-2023-05-17-23-46-54.png

- https://github.com/Vision-CAIR/MiniGPT-4
目录
相关文章
|
4天前
|
存储 算法 搜索推荐
LLM, RAG 背后的支持技术
本文主要说明向量相似性搜索的必要性、经典的ANN算法、当前业界的解决方案,和前沿的ANN算法。
|
4天前
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
59 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
4天前
|
PyTorch 算法框架/工具 异构计算
【Hello AI】安装并使用DeepGPU-LLM-处理大语言模型任务
在处理大语言模型任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)在GPU上的高性能推理优化功能
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
【AIGC】基于大语言模型构建多语种聊天机器人(基于Bloom大语言模型)
【5月更文挑战第8天】基于大语言模型Bloom构建多语种聊天机器人
22 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】什么是大型语言模型(LLM)?
【5月更文挑战第4天】【大模型】什么是大型语言模型(LLM)?
|
4天前
|
人工智能 自然语言处理 搜索推荐
LLMs
LLMs
21 4
|
4天前
|
存储 前端开发 API
LangChain: 大语言模型的新篇章(2)
LangChain: 大语言模型的新篇章
116 1
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
【边做边学】大语言模型(LLM)
【边做边学】大语言模型(LLM)
|
4天前
|
自然语言处理 数据可视化 搜索推荐
LangChain: 大语言模型的新篇章(3)
LangChain: 大语言模型的新篇章
145 1
|
4天前
|
人工智能 自然语言处理 开发者
LangChain: 大语言模型的新篇章(1)
LangChain: 大语言模型的新篇章
120 0