Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

简介: 【10月更文挑战第6天】近年来,大型语言模型(LLMs)在代码生成领域取得显著进展,但推理计算的规模化效果有限。为解决此问题,来自Scale AI等机构的研究人员提出了PlanSearch算法,通过在自然语言中搜索候选计划,有效提升了模型输出的多样性与准确性。实验显示,在Claude 3.5 Sonnet等模型上,PlanSearch显著提高了搜索效率和性能。尽管存在计算成本高等挑战,该算法仍为LLMs的应用提供了新思路。论文详情见:https://arxiv.org/pdf/2409.03733

近年来,随着大型语言模型(LLMs)的快速发展,其在代码生成领域的应用也取得了显著的成果。然而,尽管训练计算的规模化带来了模型性能的显著提升,但推理计算的规模化并未产生类似的增益。这引发了研究人员的思考:是否存在一个核心的缺失组件,导致模型在搜索过程中反复生成高度相似但不正确的结果,从而降低了搜索效率?

为了解决这个问题,来自Scale AI、California Institute of Technology和Northeastern University等机构的研究人员提出了一种名为PlanSearch的新颖搜索算法。该算法通过在自然语言中搜索解决问题的候选计划,来解决模型输出多样性不足的问题。PlanSearch首先生成一组关于问题的观察,然后使用这些观察来构建解决问题的计划。通过在自然语言中搜索计划而不是直接搜索代码解决方案,PlanSearch能够探索到比基线搜索方法更广泛的潜在解决方案范围。

实验结果表明,使用PlanSearch在Claude 3.5 Sonnet等模型上取得了显著的性能提升。在LiveCodeBench(一个用于竞争性编程的无污染基准)上,使用PlanSearch的Claude 3.5 Sonnet实现了77.0%的pass@200,超过了不使用搜索的最佳性能(pass@1 = 41.4%)和使用标准重复采样的最佳性能(pass@200 = 60.6%)。此外,研究人员还发现,在所有模型、算法和基准中,搜索算法的性能增益可以准确地预测为生成想法多样性的直接函数。

这一研究为LLMs在代码生成领域的应用提供了新的思路和方法。通过引入PlanSearch算法,研究人员成功地提高了模型在推理阶段的搜索效率和准确性。这对于推动LLMs在实际应用中的发展具有重要意义。

然而,尽管PlanSearch取得了显著的成果,但仍然存在一些限制和挑战。首先,PlanSearch的计算成本相对较高,这可能会限制其在实际应用中的可行性。其次,PlanSearch的性能提升主要体现在pass@k指标上,而在其他指标上的表现可能并不理想。此外,PlanSearch的适用性也需要进一步验证,特别是在其他领域或任务中的应用。

尽管如此,PlanSearch的提出仍然为LLMs的搜索算法研究提供了新的思路和方向。通过在自然语言中搜索计划,PlanSearch能够有效地提高模型的输出多样性,从而提高搜索效率和准确性。这为解决LLMs在推理阶段的搜索瓶颈问题提供了一种可行的方法。

论文地址:https://arxiv.org/pdf/2409.03733

目录
相关文章
|
存储 SQL 关系型数据库
你对MySQL的int(11)真的了解吗?
首先,需要明确的是,int(3)和int(11)都是表示整数类型,而不是定义整数的存储长度。在MySQL中,INT类型占据4个字节(32位),可以存储范围是-2^31到2^31-1(约-2.1亿到2.1亿),这个范围是固定的,不受括号中数字的影响。
669 3
你对MySQL的int(11)真的了解吗?
|
监控 测试技术 开发工具
Sentry Web 性能监控 - Metrics
Sentry Web 性能监控 - Metrics
591 0
|
弹性计算
查看阿里云服务器IP地址的三种方法
查看阿里云服务器IP地址的三种方法
8284 1
|
Java Serverless Apache
9 个开源项目、25 个课题可选丨欢迎报名阿里云云原生开源之夏
2024 开源之夏,阿里云云原生应用平台团队开放了包括 Apache Dubbo/Apache RocketMQ/Apache Seata/Higress/iLogtail /Nacos/Sentinel/Spring Could Alibaba / Serverless Devs 在内,涉及微服务、消息、可观测、Serverless 4 大技术领域的 9 个开源项目。
2090 117
|
人工智能 Java 测试技术
低成本工程实践-AI帮我写代码做需求
本文主要讲述,以“无需训练模型”的方式实现:AI智能分析功能需求、写代码、review代码解决特定业务问题的实践过程
569 12
低成本工程实践-AI帮我写代码做需求
ly~
|
并行计算 算法 API
SDL 图形库优化对硬件要求有何变化
SDL(Simple DirectMedia Layer)图形库是一个跨平台的多媒体库,适用于多种操作系统和设备。优化后的SDL 2.0对硬件的要求有所提升,特别是显卡性能。优化包括提高渲染效率、利用硬件加速功能、支持高效解码算法等,以增强图形处理能力和流畅度。同时,优化后的SDL对输入设备的交互体验要求更高,需确保键盘、鼠标、触摸屏等设备的顺畅操作。尽管如此,SDL仍保持良好的兼容性,能在较低配置的硬件上运行,只是性能表现会有所差异。
ly~
816 4
|
安全 Android开发 开发者
探索安卓开发的未来:Kotlin的崛起与Flutter的挑战
在移动开发的广阔天地中,安卓平台始终占据着举足轻重的地位。随着技术的不断进步和开发者需求的多样化,Kotlin和Flutter成为了改变游戏规则的新玩家。本文将深入探讨Kotlin如何以其现代化的特性赢得开发者的青睐,以及Flutter凭借跨平台的能力如何挑战传统的安卓开发模式。通过实际案例分析,我们将揭示这两种技术如何塑造未来的安卓应用开发。
243 6
Echarts——饼图折线图柱状图相互转换
Echarts——饼图折线图柱状图相互转换
687 0
|
机器学习/深度学习 算法 大数据
[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer
阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。
|
机器学习/深度学习 数据采集 消息中间件