谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡

简介: 【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。

f2b41c0d3232d68c8c9141bc146ffb93.jpg
在人工智能领域,文本嵌入模型的发展一直是推动自然语言处理技术进步的关键因素。近期,谷歌DeepMind团队推出了一款名为Gecko的新型文本嵌入模型,它在检索性能上展现出了与大型语言模型相媲美的能力,而其模型尺寸却远小于后者。这一成果不仅为文本嵌入技术的未来发展方向提供了新的思路,也为相关领域的研究者和开发者带来了新的工具和可能性。

Gecko模型的核心优势在于其紧凑性和多功能性。通过对大型语言模型(LLMs)的知识进行提炼和融合,Gecko能够在较小的模型体积下实现强大的检索性能。在Massive Text Embedding Benchmark(MTEB)的测试中,Gecko以256维的嵌入维度超越了所有现有的768维模型,甚至在某些方面与比其大7倍的模型相媲美。这一成就标志着在保持模型效率的同时,也能够实现高性能的文本嵌入。

Gecko模型的开发过程中,DeepMind团队采用了一种独特的两步蒸馏方法。首先,利用大型语言模型生成多样化的合成数据对,然后通过检索候选段落并使用LLMs重新标记正面和负面段落,进一步提升数据质量。这种方法不仅提高了模型的准确性,也为模型的训练和优化提供了新的视角。

在实际应用中,Gecko模型展现出了广泛的适用性和灵活性。它不仅能够在文档检索、句子相似性、分类等任务上取得优异表现,还能够适应不同的硬件环境和应用场景。这一点在智能手机、个人电脑等多种设备上的测试中得到了验证。此外,Gecko模型在处理多语言任务时也表现出色,即使在只使用英语数据集进行训练的情况下,也能够在其他语言的检索任务中取得良好的效果。

然而,尽管Gecko模型在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

目录
相关文章
|
3月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
21 2
创新性3D数据合成模型,微软推出EgoGen
|
2月前
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
16 2
苹果新研究提升服务大模型效率
|
2月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
32 0
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
38 0
|
9月前
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
101 0
|
12月前
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
137 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
200亿参数GPT-NeoX即将开源:96块A100训练三个月,野生GPT家族再添一员
200亿参数GPT-NeoX即将开源:96块A100训练三个月,野生GPT家族再添一员
712 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
389 0
|
12月前
|
Web App开发 数据采集 自然语言处理
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
118 0
|
12月前
|
机器学习/深度学习 数据采集 自然语言处理
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍