谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡

简介: 【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。

f2b41c0d3232d68c8c9141bc146ffb93.jpg
在人工智能领域,文本嵌入模型的发展一直是推动自然语言处理技术进步的关键因素。近期,谷歌DeepMind团队推出了一款名为Gecko的新型文本嵌入模型,它在检索性能上展现出了与大型语言模型相媲美的能力,而其模型尺寸却远小于后者。这一成果不仅为文本嵌入技术的未来发展方向提供了新的思路,也为相关领域的研究者和开发者带来了新的工具和可能性。

Gecko模型的核心优势在于其紧凑性和多功能性。通过对大型语言模型(LLMs)的知识进行提炼和融合,Gecko能够在较小的模型体积下实现强大的检索性能。在Massive Text Embedding Benchmark(MTEB)的测试中,Gecko以256维的嵌入维度超越了所有现有的768维模型,甚至在某些方面与比其大7倍的模型相媲美。这一成就标志着在保持模型效率的同时,也能够实现高性能的文本嵌入。

Gecko模型的开发过程中,DeepMind团队采用了一种独特的两步蒸馏方法。首先,利用大型语言模型生成多样化的合成数据对,然后通过检索候选段落并使用LLMs重新标记正面和负面段落,进一步提升数据质量。这种方法不仅提高了模型的准确性,也为模型的训练和优化提供了新的视角。

在实际应用中,Gecko模型展现出了广泛的适用性和灵活性。它不仅能够在文档检索、句子相似性、分类等任务上取得优异表现,还能够适应不同的硬件环境和应用场景。这一点在智能手机、个人电脑等多种设备上的测试中得到了验证。此外,Gecko模型在处理多语言任务时也表现出色,即使在只使用英语数据集进行训练的情况下,也能够在其他语言的检索任务中取得良好的效果。

然而,尽管Gecko模型在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

目录
相关文章
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
56 2
|
6月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
77 2
|
6月前
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
43 2
苹果新研究提升服务大模型效率
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
130 0
|
机器学习/深度学习 计算机视觉
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
171 0
|
存储 人工智能 算法
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
189 0
|
机器学习/深度学习 人工智能 自然语言处理
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
557 0
|
Web App开发 数据采集 自然语言处理
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
135 0
|
机器学习/深度学习 存储 人工智能
MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染
MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染
125 0
|
机器学习/深度学习 人工智能 自然语言处理
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
134 0