盘点开源大语言模型LLMs

简介: 本文总结了开源大语言模型的发展,从word2vec到Transformer,再到BERT和GPT系列。重点介绍了几个开源GPT项目,如斯坦福的Alpaca、清华的ChatGLM-6B、Vicuna、复旦的MOSS和Lamini,以及mini-GPT4,这些项目致力于以较小参数量接近ChatGPT性能并实现友好部署。各模型特点和相关资源链接亦有提供。5月更文挑战第5天

盘点开源大语言模型LLMs

1.大语言模型演化

yyq-2023-05-15-22-25-19.png

上图是来自Harnessing the Power of LLMs in Practice A Survey on ChatGPT and Beyond, 该图很好的概述了自然语言模型的演化。

由此可知,自然语言处理(NLP)在Transformer出现之前以词向量为代表的模型:word2vec。

所谓word2vec就是一个词用一个紧凑的向量的来表示(而不是一个one-hot编码),可以认为是将一个one-hot映射到一个低维空间中;那如何映射才是有意义?谷歌在Efficient Estimation of Word Representations in Vector Space提出两个方法CBOW和skip-gram。两者的本质区别:

  • CBOW是利用中心词的前面和后面的词(即上下文)来预测该中心词,从而得到一个向量
  • skip-gram是跟进中心词去预测周围的词,skip-gram利用构建中心词矩阵和周围词矩阵,来建立中心词和周围词的关系从而得到词向量

yyq-2023-05-15-22-49-10.png

在Transformer之后,出现了三个较大的分支,一个是以bert为代表的以decoder-only的模型,另一个是以GPT为代表的encoder模型;第三个分支则是encoder+decoder的模型(就是整个Transformer),这里有清华系的GLM和chatGLM

各自的模型特点描述下:

yyq-2023-05-15-22-31-16.png

简要的说:

  • bert模型在预测时是做完形填空,即一句话,遮住某一个词,用未遮住的词来预测遮住的词,bert在预测时知道前面的词和后面的词,这一点和CBOW是很像的

  • GPT模型则是词生成,用前面的词来预测后面的词,显然这比bert要难。

无疑,与人类知识对齐的ChatGPT获得的巨大的成功,但是chatGPT是封闭的,只提供API(GPT3也是封闭的),谷歌的Bard和PaLM也是封闭的。大厂里视乎只有meta提供了大模型的开源,如OPT、BLOOM、LLaMa。

2.开源GPT

有meta在前,开源社区对GPT也做出的很多优秀的工作,目的就是用更小的参数量来逼近chatGPT的效果,同时更友好的部署。

我们来看下有哪些值得关注的开源GPT

  • 斯坦福大学的Alpaca
    首先是斯坦福大学的Alpaca(羊驼),目前的Alpaca模型是根据Self instruction论文中的技术生成的52K指令数据,在7B LLaMA模型进行微调的,并进行了一些修改。效果上,在一项初步的人类评估中,发现Alpaca 7B模型的表现与text-davinci-003(GPT3)模型相似。

yyq-2023-05-17-23-14-26.png

  • 清华系的ChatGLM-6B
    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

    ChatGLM同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) ,INT4 量化级别下最低只需 7GB 显存即可启动微调

  • Vicuna
    Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality。

    受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持

  • MOSS
    MOSS是复旦大学的开源的一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到,精度要求不那么高的话,甚至可以在单张3090显卡上运行
  • Lamini
    Lamini: The LLM engine for rapidly customizing models。来自斯坦福的一群开发者发布了 Lamini,号称可以为每个开发人员提供从 GPT-3 带到 ChatGPT 的超能力;使用Lamini,开发人员使用很多公司、机构的基础模型快速构建定制化模型。

yyq-2023-05-17-23-40-17.png

- https://github.com/lamini-ai/lamini/
  • mini-GPT4
    mini-GPT4提供了在Vicuna-7B上对齐的预训练模型。显存消耗可以低到12GB

yyq-2023-05-17-23-46-54.png

- https://github.com/Vision-CAIR/MiniGPT-4
目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 NoSQL
基于大语言模型的应用
大语言模型(BLM)在NLP领域广泛应用,能理解和生成准确答案,适用于文本分类、文本生成、信息检索和问答系统。深度学习技术如TensorFlow、PyTorch助力文本分类,BLM提升信息检索效率,问答系统依赖BLM的语义理解。悦数图数据库利用图技术增强BLM,提高回答准确度,降低企业应用成本,推动智能化发展。
|
16天前
|
人工智能 文字识别 测试技术
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。
102 29
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
|
3月前
|
存储 人工智能 自然语言处理
LangChain: 大语言模型的新篇章
本文介绍了LangChain框架,它能够将大型语言模型与其他计算或知识来源相结合,从而实现功能更加强大的应用。接着,对LangChain的关键概念进行了详细说明,并基于该框架进行了一些案例尝试,旨在帮助读者更轻松地理解LangChain的工作原理。
|
4月前
|
数据采集 JSON 自然语言处理
打造领域专属的大语言模型
大模型虽擅长自然语言处理,但在专业领域常表现不足。微调通过利用特定领域的数据,在已有大模型基础上进一步训练,能显著提升模型的专业表现,同时有效控制成本。微调前需确定领域、收集并格式化数据;过程中涉及数据上传、模型训练及状态监控;最后通过验证测试评估效果。此法既经济又高效,特别适合中小型企业及个人用户。
|
7月前
|
存储 前端开发 API
LangChain: 大语言模型的新篇章(2)
LangChain: 大语言模型的新篇章
226 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】什么是大型语言模型(LLM)?
【5月更文挑战第4天】【大模型】什么是大型语言模型(LLM)?
|
7月前
|
数据采集 人工智能
【大模型】大语言模型存在的一些限制
【5月更文挑战第5天】【大模型】大语言模型存在的一些限制
|
6月前
|
知识图谱 自然语言处理 算法
大语言模型 RAG 论文总结(2023~202404)(1)
大语言模型 RAG 论文总结(2023~202404)
295 0
|
6月前
|
知识图谱 自然语言处理 机器学习/深度学习
大语言模型 RAG 论文总结(2023~202404)(5)
大语言模型 RAG 论文总结(2023~202404)
205 0
|
6月前
|
自然语言处理 算法 机器学习/深度学习
大语言模型 RAG 论文总结(2023~202404)(2)
大语言模型 RAG 论文总结(2023~202404)
373 0