谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡

简介: 【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。

f2b41c0d3232d68c8c9141bc146ffb93.jpg
在人工智能领域,文本嵌入模型的发展一直是推动自然语言处理技术进步的关键因素。近期,谷歌DeepMind团队推出了一款名为Gecko的新型文本嵌入模型,它在检索性能上展现出了与大型语言模型相媲美的能力,而其模型尺寸却远小于后者。这一成果不仅为文本嵌入技术的未来发展方向提供了新的思路,也为相关领域的研究者和开发者带来了新的工具和可能性。

Gecko模型的核心优势在于其紧凑性和多功能性。通过对大型语言模型(LLMs)的知识进行提炼和融合,Gecko能够在较小的模型体积下实现强大的检索性能。在Massive Text Embedding Benchmark(MTEB)的测试中,Gecko以256维的嵌入维度超越了所有现有的768维模型,甚至在某些方面与比其大7倍的模型相媲美。这一成就标志着在保持模型效率的同时,也能够实现高性能的文本嵌入。

Gecko模型的开发过程中,DeepMind团队采用了一种独特的两步蒸馏方法。首先,利用大型语言模型生成多样化的合成数据对,然后通过检索候选段落并使用LLMs重新标记正面和负面段落,进一步提升数据质量。这种方法不仅提高了模型的准确性,也为模型的训练和优化提供了新的视角。

在实际应用中,Gecko模型展现出了广泛的适用性和灵活性。它不仅能够在文档检索、句子相似性、分类等任务上取得优异表现,还能够适应不同的硬件环境和应用场景。这一点在智能手机、个人电脑等多种设备上的测试中得到了验证。此外,Gecko模型在处理多语言任务时也表现出色,即使在只使用英语数据集进行训练的情况下,也能够在其他语言的检索任务中取得良好的效果。

然而,尽管Gecko模型在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

目录
相关文章
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第17天】近日,谷歌、DeepMind等四大机构联合发布论文,展示大型语言模型(LLMs)在数学问题解决上的显著进步。通过引入元认知知识,研究人员开发了提示引导的交互程序,使LLMs能为数学问题分配合理技能标签并进行语义聚类。实验结果显示,GPT-4在GSM8K和MATH数据集上的准确性分别提升了11.6%和7.52%,展现出巨大潜力。这一成果不仅为AI领域提供了新思路,也为数学教育带来了启示。
35 4
|
6月前
|
人工智能
谷歌重磅发布AlphaFold 3,增强人类发现新药方法!
【5月更文挑战第19天】谷歌DeepMind推出AlphaFold 3,这是人工智能在生物分子结构预测上的新里程碑,有望革新药物发现。相较于前代,AlphaFold 3采用新扩散基架构,提升预测复杂结构的准确性,并在蛋白质-配体、蛋白质-核酸及抗体-抗原相互作用预测上展现优越性能。然而,科学家对其预测误差和可能对现有预测工具的影响持谨慎态度。论文链接:[Nature](https://www.nature.com/articles/s41586-024-07487-w#citeas)
66 9
|
6月前
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
44 2
苹果新研究提升服务大模型效率
|
6月前
|
人工智能 自然语言处理 异构计算
微软SliceGPT让LLAMA-2计算效率大增
【2月更文挑战第13天】微软SliceGPT让LLAMA-2计算效率大增
68 7
微软SliceGPT让LLAMA-2计算效率大增
|
机器学习/深度学习 计算机视觉
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
模型大十倍,性能提升几倍?谷歌研究员进行了一番研究
175 0
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
174 0
|
Web App开发 数据采集 自然语言处理
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
135 0
|
机器学习/深度学习 人工智能 自然语言处理
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
570 0
|
数据采集 机器学习/深度学习 设计模式
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
1032 0
|
机器学习/深度学习 数据采集 自然语言处理
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
128 0