Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?

简介: 【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。

在过去的70年里,人工智能(AI)领域的发展历程中,有一个重要的经验教训被反复验证,那就是通用的、能够利用计算的方法,最终会成为最有效的方法。这一观点的主要支持者是加拿大多伦多大学的计算机科学家理查德·萨顿(Rich Sutton),他在2019年的一篇论文中详细阐述了这一观点。

萨顿的观点基于两个关键因素。首先,他指出摩尔定律的普遍化,即单位计算成本的持续指数下降。这意味着,随着时间的推移,研究人员将能够获得更多的计算资源,这使得依赖于大量计算的方法更具吸引力。其次,萨顿认为,在短期内,研究人员可能会寻求利用他们的领域知识来改进系统,但从长远来看,唯一重要的是利用计算的能力。

萨顿的观点在人工智能领域的多个子领域中得到了验证。在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的系统是基于大规模的深度搜索。然而,当时大多数计算机象棋研究人员追求的方法是利用人类对象棋特殊结构的理解。当一个更简单的、基于搜索的方法证明比那些依赖于人类知识的方法更有效时,这些研究人员感到失望。

类似的情况也发生在计算机围棋领域,只是时间上晚了20年。最初,研究人员投入了大量的努力来避免搜索,而是利用人类知识或游戏的特殊特征。然而,一旦搜索被有效地应用于大规模,所有这些努力都被证明是无关紧要的,甚至是有害的。

在语音识别领域,也出现了类似的发展模式。在20世纪70年代的一场由DARPA赞助的早期竞赛中,参赛者包括许多利用人类知识的特殊方法。然而,基于隐马尔可夫模型(HMMs)的更统计性的方法最终胜出,并导致了自然语言处理领域的重大变革。

在计算机视觉领域,也出现了类似的情况。早期的方法将视觉视为寻找边缘、一般化圆柱体或SIFT特征的过程。然而,现代的深度学习神经网络只使用卷积和某些类型的不变性的概念,并取得了更好的性能。

萨顿的观点强调了通用方法的力量,这些方法能够随着可用计算的增加而继续扩展,即使可用的计算变得非常大。他认为,能够以这种方式无限扩展的两个方法是搜索和学习。

然而,萨顿的观点也受到了一些批评。一些人认为,他过于强调计算的重要性,而忽视了领域知识的价值。他们认为,在某些情况下,利用领域知识可以导致更有效的解决方案,而不仅仅是依赖于计算能力。

此外,一些人还指出,萨顿的观点可能低估了人工智能领域中其他因素的重要性,如数据质量、算法设计和系统架构等。他们认为,虽然计算能力是重要的,但它并不是唯一重要的因素。

原文地址:https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

目录
相关文章
|
9月前
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
234 98
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
4784 12
|
9月前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
297 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
10月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
1348 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
10月前
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
1710 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
一文彻底讲透GPT架构及推理原理
本篇是作者从开发人员的视角,围绕着大模型正向推理过程,对大模型的原理的系统性总结,希望对初学者有所帮助。
|
11月前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
793 25
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
368 66
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
236 3
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!

热门文章

最新文章