魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(中)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务

为了高效训练,清华大学首先采用ZeRO优化器,在数据并行组内分摊优化器状态,将单卡显存消耗降低至原来的25%。

 

image.png

 

与此同时,清华大学通过使用算子融合和在流水线平衡策略,在计算效率和内存方面进行了优化。

 

在平台兼容性方面,清华大学在神威架构上实现了一个和DeepSpeed API兼容的计算库,最终可以在三个集群上对齐训练曲线。

 

image.png

 

在实验方面,清华大学在A100、海光、神威三个集群上分别实验,发现不同集群在硬件上存在较大的差异性。

 

如上图所示,GPT-3 175B的整体利用率较高,三个平台上完成训练的时间均在60天左右,较为合理。由此证明,该框架在不同集群上具有通用型。

 

除此之外,在A100集群上,科研人员和BMTrain方法进行对比发现,如果按相同机器数量估算,清华大学的方法将性能提升了25%。

 

image.png

 

在扩展性方面,清华大学在海光集群进行了相关实验。随着模型规模的增长,方法呈现超线性扩展性。

 

image.png

 

除了工程难点,千亿模型在训练上的最大挑战就是训练稳定性。其质上是精度和效率的平衡问题。

 

为了充分发挥加速器的性能,清华大学采用fp16等半精度格式,提高性能效率。但精度降低会导致模型训练不稳定。

 

在已经开源的大模型中,OPT-175采用了动态干预并反复调整的方式。BLOOM 176B采用了embedding norm和bf16。实验表明embedding norm对性能有很大影响且bf16只支持有限的平台。这些方案让训练过程非常稳定,只出现了少量的波动。

 

image.png

 

后来,科研人员发现Attention层容易出现数值不稳定,模型规模扩大的时候,attention层中Q乘K^T会导致的分数很有可能超过FP16的表示范围。

 

因此清华大学提出一种混合精度策略,将softmax层转为单精度计算缓解溢出,结合之前的算子融合方法,仅以1%的损失极大稳定了训练。

相关文章
|
6月前
|
数据可视化 PyTorch 算法框架/工具
零一万物Yi-34B-Chat 微调模型及量化版开源!魔搭社区最佳实践教程!
11月24日,零一万物基正式发布并开源微调模型 Yi-34B-Chat,可申请免费商用。同时,零一万物还为开发者提供了 4bit/8bit 量化版模型,Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。魔搭社区已支持下载、推理训练体验,并推出相关教程,欢迎大家来玩!
|
1月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
21天前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
1月前
|
人工智能 安全 测试技术
微软开源4.2B参数多模态SLM模型Phi-3-vision,魔搭社区推理、微调实战教程来啦!
在 Microsoft Build 2024 上,微软持续开源了 Phi-3 系列的新模型们。包括 Phi-3-vision,这是一种将语言和视觉功能结合在一起的多模态模型。
|
1月前
|
数据可视化 物联网 关系型数据库
幻方开源第二代MoE模型 DeepSeek-V2,魔搭社区推理、微调最佳实践教程
5月6日,幻方继1月份推出首个国产MoE模型,历时4个月,带来第二代MoE模型DeepSeek-V2,并开源了技术报告和模型权重,魔搭社区可下载体验。
|
1月前
|
自然语言处理 物联网 Swift
联合XTuner,魔搭社区全面支持数据集的长文本训练
XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。
|
1月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
1月前
|
数据可视化 物联网 测试技术
零一万物Yi-1.5系列模型发布并开源!34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦!
Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
|
1月前
|
数据可视化 物联网 Swift
澜舟科技开源孟子3-13B大模型,魔搭社区推理训练最佳实践!
4月1日,澜舟科技宣布开源Mengzi3-13B大模型,对学术研究完全开放,同时支持免费商用。
|
1月前
|
人工智能 知识图谱 Windows
Mistral 7B v0.2 基础模型开源,魔搭社区微调教程和评测来啦!
Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点