Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?

简介: 【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。

在过去的70年里,人工智能(AI)领域的发展历程中,有一个重要的经验教训被反复验证,那就是通用的、能够利用计算的方法,最终会成为最有效的方法。这一观点的主要支持者是加拿大多伦多大学的计算机科学家理查德·萨顿(Rich Sutton),他在2019年的一篇论文中详细阐述了这一观点。

萨顿的观点基于两个关键因素。首先,他指出摩尔定律的普遍化,即单位计算成本的持续指数下降。这意味着,随着时间的推移,研究人员将能够获得更多的计算资源,这使得依赖于大量计算的方法更具吸引力。其次,萨顿认为,在短期内,研究人员可能会寻求利用他们的领域知识来改进系统,但从长远来看,唯一重要的是利用计算的能力。

萨顿的观点在人工智能领域的多个子领域中得到了验证。在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的系统是基于大规模的深度搜索。然而,当时大多数计算机象棋研究人员追求的方法是利用人类对象棋特殊结构的理解。当一个更简单的、基于搜索的方法证明比那些依赖于人类知识的方法更有效时,这些研究人员感到失望。

类似的情况也发生在计算机围棋领域,只是时间上晚了20年。最初,研究人员投入了大量的努力来避免搜索,而是利用人类知识或游戏的特殊特征。然而,一旦搜索被有效地应用于大规模,所有这些努力都被证明是无关紧要的,甚至是有害的。

在语音识别领域,也出现了类似的发展模式。在20世纪70年代的一场由DARPA赞助的早期竞赛中,参赛者包括许多利用人类知识的特殊方法。然而,基于隐马尔可夫模型(HMMs)的更统计性的方法最终胜出,并导致了自然语言处理领域的重大变革。

在计算机视觉领域,也出现了类似的情况。早期的方法将视觉视为寻找边缘、一般化圆柱体或SIFT特征的过程。然而,现代的深度学习神经网络只使用卷积和某些类型的不变性的概念,并取得了更好的性能。

萨顿的观点强调了通用方法的力量,这些方法能够随着可用计算的增加而继续扩展,即使可用的计算变得非常大。他认为,能够以这种方式无限扩展的两个方法是搜索和学习。

然而,萨顿的观点也受到了一些批评。一些人认为,他过于强调计算的重要性,而忽视了领域知识的价值。他们认为,在某些情况下,利用领域知识可以导致更有效的解决方案,而不仅仅是依赖于计算能力。

此外,一些人还指出,萨顿的观点可能低估了人工智能领域中其他因素的重要性,如数据质量、算法设计和系统架构等。他们认为,虽然计算能力是重要的,但它并不是唯一重要的因素。

原文地址:https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

目录
相关文章
|
2月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
999 11
|
4月前
|
人工智能 自然语言处理 测试技术
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【7月更文挑战第21天】英伟达与GaTech华人团队提出RankRAG框架,通过在Llama 3模型上微调,实现检索和生成的统一,超越GPT-4在知识密集型任务的表现。RankRAG利用指令微调让模型同时学习上下文排名和生成,减少了对独立检索模型的依赖。在多基准测试中胜过GPT-4,展示出提升LLMs性能的新潜力。尽管面临数据需求大和计算成本高的挑战,RankRAG为RAG任务优化提供了新途径。[[1](https://arxiv.org/abs/2407.02485)]
88 3
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
29 3
|
3月前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
181 66
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
2月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
79 10
|
2月前
|
机器学习/深度学习 数据可视化 UED
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
【9月更文挑战第4天】Transformer Explainer是一款基于网页的交互式可视化工具,专为帮助用户理解复杂的Transformer模型而设计。通过多层次抽象、实时推理及互动实验,以及无需安装即可使用的便捷性,此工具选取GPT-2作为教学模型,降低了学习门槛并提升了教育普及度。用户可以通过输入自定义文本观察预测过程,深入了解内部组件的工作原理。此外,它还减少了认知负荷,增强了互动学习体验。未来,该工具将在复杂性管理和性能优化方面继续改进,并通过用户研究进一步提升功能和可用性。[论文地址:https://arxiv.org/pdf/2408.04619]
51 1
|
3月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
45 7

热门文章

最新文章