Contextual发布生成式表征指导调整模型

简介: 【2月更文挑战第17天】Contextual发布生成式表征指导调整模型

33.jpg
在人工智能领域,尤其是在自然语言处理(NLP)的前沿,Contextual AI团队最近发布了一项创新成果——生成式表征指导调整模型(GRIT)。这一模型的问世,标志着在处理文本数据时,我们能够更加高效和精确地进行信息的生成和嵌入。GRIT模型的出现,不仅在技术上实现了突破,也为未来的研究和应用开辟了新的道路。

GRIT模型的核心在于其能够同时处理生成任务和嵌入任务。在传统的语言模型中,生成和嵌入往往是两个独立的任务,需要分别训练和优化。然而,GRIT模型通过引入指令区分机制,使得同一个模型能够根据给定的指令,灵活地在生成和嵌入之间切换。这种灵活性不仅提高了模型的适应性,也极大地提升了处理效率。

在性能方面,GRIT模型在大规模文本嵌入基准(MTEB)上的表现尤为突出。GRITLM 7B模型在开放模型中取得了最佳性能,同时在一系列生成任务上也超越了所有同等规模的模型。当模型参数进一步扩展到8X7B时,GRITLM不仅在生成语言模型中表现出色,而且在嵌入模型中也保持了顶尖水平。这一成就,无疑证明了GRIT模型在处理复杂语言任务时的强大能力。

GRIT模型的架构设计同样值得关注。模型的左侧用于处理嵌入任务,通过双向注意力机制处理输入,并利用平均池化生成最终的表示。而模型的右侧则用于生成任务,采用因果注意力处理输入,并在隐藏状态上添加语言建模头以预测下一个标记。这种设计不仅支持多轮对话,而且使得模型在处理长文本时更加高效。

在实验设置上,研究团队从Mistral 7B和Mixtral 8x7B模型开始微调,并采用了E5和Tülu 2数据集的适应版本。在嵌入性能评估中,研究团队使用了MTEB的56个主要数据集。在生成性能评估中,他们遵循了Ivison等人的评估设置,并使用了HumanEvalSynthesize的HumanEval变体,以适应指令遵循模型的特点。

GRIT模型在嵌入和生成任务上的表现均达到了最佳水平。例如,与Llama 70B模型相比,GRITLM在MTEB上的得分几乎提高了一倍,同时在生成任务上也提高了20%以上。这一显著的提升,展示了GRIT模型在处理复杂语言任务时的优越性。

在消融实验中,研究团队深入探讨了注意力和池化策略。他们发现,适应因果预训练的语言模型并使用双向注意力,可以提供最佳的嵌入性能。此外,位置加权平均池化(Wmean)在完全因果的嵌入中,比仅使用最后一个标记的嵌入提供了更好的性能。这些发现为未来模型的优化提供了宝贵的经验。

在基础模型的选择上,研究团队发现,使用Mistral 7B作为基础模型在嵌入和生成任务上均取得了最佳性能。这一发现表明,预训练模型的生成性能是其在微调后嵌入性能的可靠指标。在生成数据集的选择上,Tülu 2因其包含更多样化的任务而表现出更好的性能。此外,研究团队还探讨了嵌入数据集的选择,发现E5数据集在性能上表现最佳,这可能与其优越的硬负样本和多样化的任务有关。

在精度方面,研究团队发现,在嵌入任务中,使用混合精度(BF16)训练与使用FP32(float32)精度训练相比,性能相当。这一发现对于在资源有限的情况下进行模型训练具有重要意义。

在批量大小的策略上,研究团队发现,较大的批量大小可以提供更准确的梯度,从而提高模型的性能。此外,他们还探讨了损失函数的混合使用,发现在某些情况下,混合使用样本级和标记级生成损失可以取得最佳效果。

最后,研究团队还探讨了检索增强生成(RAG)方法的优化。通过将检索器和阅读器统一到一个模型中,GRITLM允许缓存操作,从而显著提高了长序列的推理速度。这一优化不仅提高了效率,也为RAG方法的应用提供了新的可能性。

目录
相关文章
|
3月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
4月前
|
自然语言处理
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
|
6月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
163 3
|
6月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
163 0
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
154 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
6月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
167 1
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
947 0
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
249 0
下一篇
无影云桌面