苹果新研究提升服务大模型效率

简介: 【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)

70ba7525b1f719f38c4afdff836e2461.jpg
苹果公司近期在其研究领域取得了新的突破,该公司的研究团队提出了一种名为递归草稿器(ReDrafter)的新型推测解码方法,这一方法旨在提升大型语言模型(LLM)的推理效率。在深度学习技术日新月异的今天,大型语言模型因其强大的数据处理能力和广泛的应用前景而备受关注。然而,随着模型规模的不断扩大,如何在有限的硬件资源下提高模型的运行效率,成为了一个亟待解决的问题。

大型语言模型通常采用自回归方法进行令牌生成,这意味着在生成每个令牌时都需要进行一次完整的前向传播,这在模型参数庞大的情况下会导致显著的延迟。为了解决这一问题,推测解码技术应运而生。该技术通过使用较小的草稿模型快速生成候选令牌,再由较大的目标模型进行验证,从而优化了内存和计算资源的使用,显著降低了推理延迟。

苹果公司的研究团队在最新的论文中,提出了一种结合了经典双模型推测解码和单模型方法Medusa优点的新型解码方法。ReDrafter通过采用单个轻量级草稿头,并引入递归依赖设计,模拟了循环神经网络(RNN)的语言模型预测机制。与传统的Medusa方法相比,ReDrafter不需要为每次推理创建数据依赖的树状注意力结构,而是通过beam search技术快速过滤掉低质量的候选词,从而提高了解码效率。

在实验部分,研究团队采用了与Medusa相同的训练方案,对ReDrafter的草稿头进行了两轮训练,并通过Alpaca Eval进行了评估。实验结果表明,即使是参数更少的ReDrafter版本,在性能上也超越了Medusa,显示出了其在长距离预测上的优势。这一发现对于实际部署大型语言模型具有重要意义,尤其是在需要快速响应的应用场景中。

苹果公司的这一研究成果,不仅在理论上提供了新的视角,而且在实践中也展现了巨大的潜力。ReDrafter的设计简化了大型语言模型的推理过程,提高了模型的运行效率,这对于推动语言模型技术的发展和应用具有积极的意义。然而,任何技术的发展都伴随着挑战。ReDrafter虽然在效率上取得了显著提升,但在实际应用中可能会遇到模型准确性和复杂性的权衡问题。此外,如何将这一技术与现有的大型语言模型服务系统无缝集成,也是未来研究需要关注的方向。

论文地址:https://arxiv.org/pdf/2403.09919.pdf

目录
相关文章
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
56 2
|
3月前
|
机器学习/深度学习 人工智能
高于临床测试3倍准确率!剑桥大学开发AI模型,提前6年预测阿尔茨海默症
【8月更文挑战第9天】剑桥大学研发的人工智能模型在预测阿尔茨海默症方面取得突破,准确率比传统临床测试高三倍,能提前六年预测疾病发生。该模型基于深度学习,利用大量临床及神经影像数据识别生物标志物,预测准确性达80%。这一成果有望促进早期干预,改善患者预后,但仍需更大规模研究验证,并解决隐私与公平性等问题。论文已发表于《The Lancet》子刊。
49 6
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
5月前
|
边缘计算 自然语言处理 安全
谷歌推出AGREE,增强大模型生成回答准确性
【6月更文挑战第19天】谷歌的AGREE技术针对大语言模型(LLMs)的“幻想”回答问题,通过自我接地和引用事实来源提升回答准确性。在多个数据集和模型上的测试显示,AGREE增强了回答和引用的准确性,但无法完全消除错误,且需大量计算资源,还可能涉及隐私和安全问题。[[1](https://arxiv.org/abs/2311.09533)]
44 1
|
5月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
72 1
|
6月前
|
数据采集 机器学习/深度学习 自然语言处理
数据更多更好还是质量更高更好?这项研究能帮你做出选择
【5月更文挑战第28天】研究探索了在机器学习中数据质量与规模的权衡,提出质量-数量权衡(QQT)概念和神经网络可扩展定律,考虑数据非同质性、效用衰减及多数据池交互。结果表明预训练时数据质量和规模同等重要,应根据情况权衡。但研究局限于模型预训练、特定类型模型和模拟数据验证。[[链接](https://arxiv.org/pdf/2404.07177.pdf)]
53 1
|
6月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
105 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
88 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
存储 人工智能 缓存
GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议
GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议
131 0
|
缓存 人工智能 自然语言处理
GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了
GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了
208 0