魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(下)

简介: 魔搭中文开源模型社区:模型即服务

除此之外,在训练初期embedding的梯度和其余层有数量级的差异,可能对损失函数缩放不利。清华大学可以通过手动调小梯度的方式平衡embedding层梯度,对稳定训练非常有帮助,对loss几乎不影响。

 

image.png

 

如上图所示,清华大学对GLM-130B的英文语言模型能力进行了评估。其中,LAMBADA是一个广泛采用的通过预测句子末尾单词,评估达模型语言能力的数据集。GLM-130B取得了80.2的优异成绩,超过了GPT-3以及SOTA PaLM 540B。

 

image.png

 

在文语言理解能力上,清华大学在大规模多任务语言理解MMLU上进行了测试,发现GLM-130B的表现与GPT-3相当,并大幅超越BLOOM-176B。随着持续训练,水平尚未收敛,并将持续提高。

 

image.png

 

在中文方面,清华大学选取了CLUE和FewCLUE两个常用数据集进行了测试,可以发现GLM-130B全面超越了ERNIE TITAN 3.0260B,并在生成式阅读理解任务上取得了巨大的提升。

 

image.png

 

除此之外,清华大学近期探索了GLM-130B的模型量化。在保留中间结果度为FP16的情况下,GLM-130B的权重可以量化到INT8而没有任何损失,甚至以非常小的精度损失可以量化到INT4。

 

在无损性能的INT8量化下,GLM-130B支持8张V100以及8张3090服务器高效。在一点点的精度损失下,用户可以在4张3090甚至8张2080 Ti上进行高效推理。

 

image.png

 

如上图所示,在T4量化在8张RTX 3090时,GLM-130B仅需5秒生成128 Token。

 

image.png

 

目前,GLM-130B已开源模型代码,大家可以免费下载。GLM-130B在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,且优于目前开源的OPT和BLOOM。

 

GLM-130B在中文CLUE和FewCLUE数据集上的零样本能力明显优于,具有2600亿参数的ERINE Titan 3.0。

 

除此之外,GLM-130B适配了英伟达的Faster Transformer推理库。相比于常用的Megatron框架,用户可以在一台A100上实现最高2.5倍的推理加速性能。

相关文章
|
11月前
|
Java 测试技术 微服务
最新技术栈下 Java 面试高频技术点实操指南详解
本指南结合最新Java技术趋势,涵盖微服务(Spring Cloud Alibaba)、响应式编程(Spring WebFlux)、容器化部署(Docker+Kubernetes)、函数式编程、性能优化及测试等核心领域。通过具体实现步骤与示例代码,深入讲解服务注册发现、配置中心、熔断限流、响应式数据库访问、JVM调优等内容。适合备战Java面试,提升实操能力,助力技术进阶。资源链接:[https://pan.quark.cn/s/14fcf913bae6](https://pan.quark.cn/s/14fcf913bae6)
445 25
|
12月前
|
传感器 机器学习/深度学习 人工智能
VR硬件进化史:从“晕3D”到沉浸式未来
VR硬件进化史:从“晕3D”到沉浸式未来
576 4
|
12月前
|
人工智能 数据可视化 安全
手把手教你用Tableau制作超酷炫能源数据可视化图表
Tableau 是一个强大的可视化分析平台,帮助用户轻松探索和管理数据。结合开源能源管理系统 MyEMS,本文详细讲解如何用 Tableau 制作能源数据可视化图表,包括连接数据库、创建柱状图、饼状图、折线图及文本展示等步骤。通过实际案例(如设备能耗数据分析),手把手教你将数据转化为直观见解,助力企业实现低碳发展与数据驱动决策。
443 0
|
开发工具 iOS开发 开发者
「Mac畅玩鸿蒙与硬件2」鸿蒙开发环境配置篇2 - 在Mac上安装DevEco Studio
本篇将专注于如何在 Mac 上安装鸿蒙开发工具 DevEco Studio,确保开发环境能够顺利搭建。完成安装后,可以正式开始鸿蒙应用的开发工作。
1417 1
「Mac畅玩鸿蒙与硬件2」鸿蒙开发环境配置篇2 - 在Mac上安装DevEco Studio
|
Ubuntu 应用服务中间件 数据库
Nginx配置:阻止非国内IP地址访问的设置方法
此外,出于用户隐私和法律合规性的考虑,应慎重考虑阻止特定国家或地区IP地址的决策。在某些情况下,这可能被视为歧视性或违反当地法律。
1364 3
|
Kubernetes 负载均衡 网络协议
在K8S中,svc底层是如何实现的?
在K8S中,svc底层是如何实现的?
|
机器学习/深度学习 存储 数据可视化
MambaOut:状态空间模型并不适合图像的分类任务
该论文研究了Mamba架构(含状态空间模型SSM)在视觉任务(图像分类、目标检测、语义分割)中的必要性。实验表明,Mamba在这些任务中效果不如传统卷积和注意力模型。论文提出,SSM更适合长序列和自回归任务,而非视觉任务。MambaOut(不带SSM的门控CNN块)在图像分类上优于视觉Mamba,但在检测和分割任务中略逊一筹,暗示SSM在这类任务中可能仍有价值。研究还探讨了Mamba在处理长序列任务时的效率和局部信息整合能力。尽管整体表现一般,但论文为优化不同视觉任务的模型架构提供了新视角。
518 2
|
存储 算法
【单向链表】数据结构——单向链表的介绍与代码实现&笔记
【单向链表】数据结构——单向链表的介绍与代码实现&笔记
|
机器学习/深度学习 编解码 达摩院
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!
29792 3
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!

热门文章

最新文章