多模态大模型技术原理及实战(6)

简介: 中小型公司大模型构建之路如何选择

中小型公司大模型构建之路

如何选择

自己建立

二次开发

重新训练,消耗非常巨大

现有的大模型体系已经非常丰富

对话大模型已经白热化

•三天产生一个小应用

•两天产生一个新模型

中小公司的技术实力相对薄

微调

用 LoRA((Low-Rank Adaptation低秩适配)  

2022年

Edward J.Hu

PLM(Pre-trained Language Model 预训练语言模型)

AdaLoRA

Qingru Zhang 等人

AdaLoRA技术采用了一种有效的策略来调整增量阵的分配

在增量更新中使用奇异值分解进行参数化,并基于重要性指标去除不重要的奇异值,同时保留奇异向量。

QLoRA

Tim Dettmers 等人

SFT(有监督微调)

DeepSpeed+ZeRO-3

DeepSpeed

•微软开发的开源深度学习优化库

•PyTorch框架

零冗余优化器 ( Zero Redundancy Optimizer,ZeRO)

•优化器状态分区(ZeRO-1)

•梯度分区 (ZeRO-2)

•参数分区(ZeRO-3)

压缩

剪枝

剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率。删除多余的节点来减小网络规模,从而降低计算成本,同时保持良好的推理效果和速度。

步骤

•1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。

•2、确定哪些参数对输出结果的贡献较小,并将其设置为零。

•3、在训练数据上进行微调,以便尽量避免因网络结构发生变化而导致性能下降。

•4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。

分类

•非结构化剪枝

•使用技术A或B的一个或多个通道

•A 滤波

•B 权重矩阵

•分类

•权值剪枝

•神经元剪枝

•结构化剪枝

•又名:滤波器剪枝

•分类

•Filter-wise

•Channel-wise

•Shape-wise

KD(Knowledge Distillation知识蒸馏)

教师网络( Teacher Network)

学生网络 ( Student Network)

量化压缩

从高精度转换为低精度

分类

•线性量化压缩

•非线性量化压缩

实战

微调实战

全参数微调实战

部分参数微调实战

压缩实战

8 位量化压缩实战

4位量化压缩实战

目录
相关文章
|
4月前
|
存储 自然语言处理 算法
【学习大模型】RAG基础
RAG(Retrieval-Augmented Generation)技术是为了解决大模型中的幻觉问题、实时交互、数据安全和知识动态性挑战。它结合了搜索和大模型的提示功能,使模型能基于检索到的信息生成更准确的回答。RAG通过向量数据库和向量检索,将文本转化为向量表示,然后进行相似度计算和检索,以提供上下文相关的信息。
553 1
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
15 3
多模态大模型技术原理与实战(3)
|
6天前
|
人工智能 文字识别 机器人
多模态大模型技术原理及实战(5)
国内外多模态大模型对比
22 6
|
6天前
|
机器学习/深度学习 自然语言处理 并行计算
多模态大模型技术原理与实战(2)
大模型被广泛应用有以下几个前提:效果好、效率高、成本可控,目前,大模型在这几个方面还不够理想。
26 5
|
6天前
|
机器学习/深度学习 编解码 自然语言处理
多模态大模型技术原理与实战(4)
本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。
14 5
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战学习笔记(1)
多模态大模型技术原理与实战学习笔记
16 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
41 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】Chameleon多模态模型探究
【机器学习】Chameleon多模态模型探究
195 5
|
4月前
|
并行计算 算法 物联网
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
|
3月前
|
存储 缓存 安全
LLM应用实战:当图谱问答(KBQA)集成大模型(三)
本文主要是针对KBQA方案基于LLM实现存在的问题进行优化,主要涉及到响应时间提升优化以及多轮对话效果优化,提供了具体的优化方案以及相应的prompt。
334 1