盘点开源大语言模型LLMs

简介: 本文总结了开源大语言模型的发展,从word2vec到Transformer,再到BERT和GPT系列。重点介绍了几个开源GPT项目,如斯坦福的Alpaca、清华的ChatGLM-6B、Vicuna、复旦的MOSS和Lamini,以及mini-GPT4,这些项目致力于以较小参数量接近ChatGPT性能并实现友好部署。各模型特点和相关资源链接亦有提供。5月更文挑战第5天

盘点开源大语言模型LLMs

1.大语言模型演化

yyq-2023-05-15-22-25-19.png

上图是来自Harnessing the Power of LLMs in Practice A Survey on ChatGPT and Beyond, 该图很好的概述了自然语言模型的演化。

由此可知,自然语言处理(NLP)在Transformer出现之前以词向量为代表的模型:word2vec。

所谓word2vec就是一个词用一个紧凑的向量的来表示(而不是一个one-hot编码),可以认为是将一个one-hot映射到一个低维空间中;那如何映射才是有意义?谷歌在Efficient Estimation of Word Representations in Vector Space提出两个方法CBOW和skip-gram。两者的本质区别:

  • CBOW是利用中心词的前面和后面的词(即上下文)来预测该中心词,从而得到一个向量
  • skip-gram是跟进中心词去预测周围的词,skip-gram利用构建中心词矩阵和周围词矩阵,来建立中心词和周围词的关系从而得到词向量

yyq-2023-05-15-22-49-10.png

在Transformer之后,出现了三个较大的分支,一个是以bert为代表的以decoder-only的模型,另一个是以GPT为代表的encoder模型;第三个分支则是encoder+decoder的模型(就是整个Transformer),这里有清华系的GLM和chatGLM

各自的模型特点描述下:

yyq-2023-05-15-22-31-16.png

简要的说:

  • bert模型在预测时是做完形填空,即一句话,遮住某一个词,用未遮住的词来预测遮住的词,bert在预测时知道前面的词和后面的词,这一点和CBOW是很像的

  • GPT模型则是词生成,用前面的词来预测后面的词,显然这比bert要难。

无疑,与人类知识对齐的ChatGPT获得的巨大的成功,但是chatGPT是封闭的,只提供API(GPT3也是封闭的),谷歌的Bard和PaLM也是封闭的。大厂里视乎只有meta提供了大模型的开源,如OPT、BLOOM、LLaMa。

2.开源GPT

有meta在前,开源社区对GPT也做出的很多优秀的工作,目的就是用更小的参数量来逼近chatGPT的效果,同时更友好的部署。

我们来看下有哪些值得关注的开源GPT

  • 斯坦福大学的Alpaca
    首先是斯坦福大学的Alpaca(羊驼),目前的Alpaca模型是根据Self instruction论文中的技术生成的52K指令数据,在7B LLaMA模型进行微调的,并进行了一些修改。效果上,在一项初步的人类评估中,发现Alpaca 7B模型的表现与text-davinci-003(GPT3)模型相似。

yyq-2023-05-17-23-14-26.png

  • 清华系的ChatGLM-6B
    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

    ChatGLM同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) ,INT4 量化级别下最低只需 7GB 显存即可启动微调

  • Vicuna
    Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality。

    受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持

  • MOSS
    MOSS是复旦大学的开源的一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到,精度要求不那么高的话,甚至可以在单张3090显卡上运行
  • Lamini
    Lamini: The LLM engine for rapidly customizing models。来自斯坦福的一群开发者发布了 Lamini,号称可以为每个开发人员提供从 GPT-3 带到 ChatGPT 的超能力;使用Lamini,开发人员使用很多公司、机构的基础模型快速构建定制化模型。

yyq-2023-05-17-23-40-17.png

- https://github.com/lamini-ai/lamini/
  • mini-GPT4
    mini-GPT4提供了在Vicuna-7B上对齐的预训练模型。显存消耗可以低到12GB

yyq-2023-05-17-23-46-54.png

- https://github.com/Vision-CAIR/MiniGPT-4
目录
相关文章
|
机器学习/深度学习 计算机视觉
深度学习常见的损失函数
深度学习常见的损失函数
951 1
深度学习常见的损失函数
|
4月前
|
人工智能 JSON 自然语言处理
干货!三款顶流大开源模型深度对比:谁才是中文场景下的定制化之王?
本文深入解析大模型定制化路径,从“通才”到“专才”的关键跃迁。通过对比Llama 3、Qwen 2.5与Mistral在中文电商评论情感分析中的表现,揭示模型架构、语料基因与量化技术对效果的影响,结合LoRA/QLoRA等高效调优方法,为开发者提供选型指南与实战框架,助力低成本实现精准AI落地。
866 4
|
8月前
|
机器学习/深度学习 监控 数据可视化
基于YOLOv8的打架斗殴暴力行为智能识别项目源码(目标检测)
本系统结合 YOLOv8检测模型 与 PyQt5界面工具,不仅提供完整训练流程,还支持自定义数据集训练,帮助用户快速搭建 开箱即用的打架斗殴行为识别系统。
1333 28
基于YOLOv8的打架斗殴暴力行为智能识别项目源码(目标检测)
|
2月前
|
人工智能 自然语言处理 安全
零技术门槛保姆级攻略!OpenClaw(Clawdbot)阿里云/本地秒级部署接入大模型Kimi K2.5教程
OpenClaw(曾用名Clawdbot、Moltbot)作为开源AI智能体工具,核心价值在于可将自然语言指令转化为实际系统操作,涵盖文件管理、终端命令执行、浏览器自动化、多工具集成等全场景功能,打破了普通聊天机器人“只说不做”的局限,成为2026年个人办公自动化与轻量团队协作的热门工具。2026年1月27日,月之暗面正式官宣开源Kimi系列重磅迭代模型——K2.5,这款被创始人杨植麟称为“Kimi史上综合能力最强的开源全能模型”,凭借15万亿级“视觉+文本”混合训练数据底座、200k超长上下文、多模态交互及推理提速40%的核心优势,与OpenClaw协同后,可大幅强化自然语言理解、复杂任务规
2268 3
|
2月前
|
人工智能 自然语言处理 监控
企业级Agent解决方案:以AgentOne为核心的数智化实践
2026年,阿里云瓴羊推出企业级全域协同Agent方案:以AgentOne为智能中枢,融合Dataphin(数据治理)、Quick Audience(智能营销)、Quick Service(智能服务)与Quick BI“智能小Q”(敏捷分析),打通“感知—决策—执行—反馈”全链路,破解数据孤岛、工具断裂、闭环缺失难题,驱动企业从数字化迈向数智化跃迁。(239字)
|
10月前
|
机器学习/深度学习 人工智能 程序员
MiniMind:3小时训练26MB微型语言模型,开源项目助力AI初学者快速入门
在大型语言模型(LLaMA、GPT等)日益流行的今天,一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型。
697 1
|
人工智能 自然语言处理 API
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
|
机器学习/深度学习 人工智能 自然语言处理
大模型的幻觉现象介绍
本文转载至赛尔实验室 ,作者哈工大SCIR,这篇文章很好的解释了大模型的幻觉问题,并且给出了一系列理论上能验证大模型幻觉现象的方式,是一篇很好的科普文章,针对于验证方式后期也可以采取对应的方式来优化此类幻觉现象,先码住好好学习一下哇嘎嘎嘎
|
人工智能 安全 搜索推荐
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
1680 1
|
资源调度 前端开发 JavaScript
谈后端人眼里的 nvm、yarn、pnpm……
虽然我是做后端的,但也时常关注前端,只是最近觉得前端的各种工具名称太眼花缭乱了,nvm、yarn、pnpm、taro……
279 4

热门文章

最新文章