Contextual发布生成式表征指导调整模型

简介: 【2月更文挑战第17天】Contextual发布生成式表征指导调整模型

33.jpg
在人工智能领域,尤其是在自然语言处理(NLP)的前沿,Contextual AI团队最近发布了一项创新成果——生成式表征指导调整模型(GRIT)。这一模型的问世,标志着在处理文本数据时,我们能够更加高效和精确地进行信息的生成和嵌入。GRIT模型的出现,不仅在技术上实现了突破,也为未来的研究和应用开辟了新的道路。

GRIT模型的核心在于其能够同时处理生成任务和嵌入任务。在传统的语言模型中,生成和嵌入往往是两个独立的任务,需要分别训练和优化。然而,GRIT模型通过引入指令区分机制,使得同一个模型能够根据给定的指令,灵活地在生成和嵌入之间切换。这种灵活性不仅提高了模型的适应性,也极大地提升了处理效率。

在性能方面,GRIT模型在大规模文本嵌入基准(MTEB)上的表现尤为突出。GRITLM 7B模型在开放模型中取得了最佳性能,同时在一系列生成任务上也超越了所有同等规模的模型。当模型参数进一步扩展到8X7B时,GRITLM不仅在生成语言模型中表现出色,而且在嵌入模型中也保持了顶尖水平。这一成就,无疑证明了GRIT模型在处理复杂语言任务时的强大能力。

GRIT模型的架构设计同样值得关注。模型的左侧用于处理嵌入任务,通过双向注意力机制处理输入,并利用平均池化生成最终的表示。而模型的右侧则用于生成任务,采用因果注意力处理输入,并在隐藏状态上添加语言建模头以预测下一个标记。这种设计不仅支持多轮对话,而且使得模型在处理长文本时更加高效。

在实验设置上,研究团队从Mistral 7B和Mixtral 8x7B模型开始微调,并采用了E5和Tülu 2数据集的适应版本。在嵌入性能评估中,研究团队使用了MTEB的56个主要数据集。在生成性能评估中,他们遵循了Ivison等人的评估设置,并使用了HumanEvalSynthesize的HumanEval变体,以适应指令遵循模型的特点。

GRIT模型在嵌入和生成任务上的表现均达到了最佳水平。例如,与Llama 70B模型相比,GRITLM在MTEB上的得分几乎提高了一倍,同时在生成任务上也提高了20%以上。这一显著的提升,展示了GRIT模型在处理复杂语言任务时的优越性。

在消融实验中,研究团队深入探讨了注意力和池化策略。他们发现,适应因果预训练的语言模型并使用双向注意力,可以提供最佳的嵌入性能。此外,位置加权平均池化(Wmean)在完全因果的嵌入中,比仅使用最后一个标记的嵌入提供了更好的性能。这些发现为未来模型的优化提供了宝贵的经验。

在基础模型的选择上,研究团队发现,使用Mistral 7B作为基础模型在嵌入和生成任务上均取得了最佳性能。这一发现表明,预训练模型的生成性能是其在微调后嵌入性能的可靠指标。在生成数据集的选择上,Tülu 2因其包含更多样化的任务而表现出更好的性能。此外,研究团队还探讨了嵌入数据集的选择,发现E5数据集在性能上表现最佳,这可能与其优越的硬负样本和多样化的任务有关。

在精度方面,研究团队发现,在嵌入任务中,使用混合精度(BF16)训练与使用FP32(float32)精度训练相比,性能相当。这一发现对于在资源有限的情况下进行模型训练具有重要意义。

在批量大小的策略上,研究团队发现,较大的批量大小可以提供更准确的梯度,从而提高模型的性能。此外,他们还探讨了损失函数的混合使用,发现在某些情况下,混合使用样本级和标记级生成损失可以取得最佳效果。

最后,研究团队还探讨了检索增强生成(RAG)方法的优化。通过将检索器和阅读器统一到一个模型中,GRITLM允许缓存操作,从而显著提高了长序列的推理速度。这一优化不仅提高了效率,也为RAG方法的应用提供了新的可能性。

目录
相关文章
|
4天前
|
人工智能 Python
【AI大模型应用开发】【RAG评估】1. 通俗易懂:深度理解RAGAS评估方法的原理与应用
【AI大模型应用开发】【RAG评估】1. 通俗易懂:深度理解RAGAS评估方法的原理与应用
12 0
|
2月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
36 0
|
20天前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
61 1
|
8月前
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
401 0
|
9月前
|
人工智能 自然语言处理 数据安全/隐私保护
不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究
不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究
223 1
|
10月前
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
123 0
|
11月前
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
486 0
|
11月前
|
机器学习/深度学习 数据采集 编解码
OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解
OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解
198 0
|
11月前
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
164 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
11月前
|
机器学习/深度学习 算法 vr&ar
DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进
DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进