超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

简介: 超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了


源 LLM 的性能越来越好了。

最近一段时间,随着大语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。

在这当中,斯坦福发布的全新大语言模型排行榜 AlpacaEval 比较出圈,它是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。

前段时间,来自微软的华人团队发布的 WizardLM(是一个经过微调的 7B LLaMA 模型)在一众模型中获得第四名的好成绩,排在其前面的分别是 GPT-4、Claude 以及 ChatGPT,可见,WizardLM 成绩还是很能打的。

近日,WizardLM 团队又发布了新的 WizardCoder-15B 大模型。至于原因,该研究表示生成代码类的大型语言模型(Code LLM)如 StarCoder,已经在代码相关任务中取得了卓越的性能。然而,大多数现有的模型仅仅是在大量的原始代码数据上进行预训练,而没有进行指令微调。因而该研究提出了 WizardCoder,它通过将 Evol-Instruct(该方法生成具有不同难度级别的指令)方法应用于代码领域,为 Code LLM 提供复杂的指令微调。

在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中,WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。



在方法上,该研究表示受到 WizardLM 提出的 Evol-Instruct 方法的启发,除此以外,该研究还尝试将代码指令变得更加复杂,以提高代码预训练大模型的微调效果。

在代码生成领域,统一的代码 prompt 模板如下:

本文使用的五种类型如下:

该研究采用以下过程来训练 WizardCoder。最初,他们使用 StarCoder 15B 作为基础,并使用代码指令 - 跟随(code instruction-following)训练集对其进行微调,该训练集通过 Evol-Instruct 进化而来。微调 prompt 格式概述如下:

WizardCoder 性能如何?
与闭源模型的比较。用于代码生成的 SOTA LLM,如 GPT4、Claude 和 Bard,主要是闭源的。然而获得这些模型 API 的访问权限难度很大。该研究采用另一种方法,从 LLM-Humaneval-Benchmarks 中检索 HumanEval 和 HumanEval + 的分数。如下图 1 所示,WizardCoder 位列第三,超过了 Claude-Plus(59.8 vs 53.0)和 Bard(59.8 vs 44.5)。

值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。

与开源模型的比较。表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。

总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论:

  • WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多。
  • WizardCoder 比所有的开源 Code LLM 都要好,包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。
  • WizardCoder 显著优于所有具有指令微调的开源 Code LLM,包括 InstructCodeT5+, StarCoder-GPTeacher 和 Instruct-Codegen-16B。


下图为不同模型在 DS-1000 基准上的结果:

相关文章
|
6月前
|
存储 人工智能 数据处理
Claude 3发布,超越ChatGPT4的大模型出现了
【2月更文挑战第14天】Claude 3发布,超越ChatGPT4的大模型出现了
105 3
Claude 3发布,超越ChatGPT4的大模型出现了
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
202 0
|
4月前
|
人工智能 自然语言处理 测试技术
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【7月更文挑战第21天】英伟达与GaTech华人团队提出RankRAG框架,通过在Llama 3模型上微调,实现检索和生成的统一,超越GPT-4在知识密集型任务的表现。RankRAG利用指令微调让模型同时学习上下文排名和生成,减少了对独立检索模型的依赖。在多基准测试中胜过GPT-4,展示出提升LLMs性能的新潜力。尽管面临数据需求大和计算成本高的挑战,RankRAG为RAG任务优化提供了新途径。[[1](https://arxiv.org/abs/2407.02485)]
80 3
|
3月前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
37 0
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
3月前
|
人工智能 自然语言处理 小程序
【AI】Gemini:听说GPT-4你小子挺厉害
谷歌推出新AI模型Gemini Pro,支持中文并具备多模态处理能力,涵盖文本、图像、音频、视频和代码。本文通过五个问题对比Gemini Pro与ChatGPT-4的表现,包括绘画、数学题解答、成语解释、天气查询及奥运冠军名单。结果显示两者各有优势,Gemini Pro在成语解释和天气查询方面略胜一筹,而ChatGPT-4在绘画方面表现更好
41 0
【AI】Gemini:听说GPT-4你小子挺厉害
|
3月前
|
Web App开发 人工智能 安全
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会“图的语言”
【5月更文挑战第1天】谷歌在ICLR 2024提出新方法,使大语言模型(LLM)性能提升高达60%,通过结合图神经网络(GNN),LLM学会理解与生成“图的语言”,打破处理复杂任务的局限。此创新模型适用于社交网络分析等领域,但面临计算资源需求大和模型解释性问题。研究强调需确保LLM在道德和法律框架内使用。论文链接:https://openreview.net/pdf?id=IuXR1CCrSi
234 3
|
6月前
|
人工智能 测试技术 量子技术
Claude 3智商测试101分超越人类/碾压GPT-4!
【2月更文挑战第16天】Claude 3智商测试101分超越人类/碾压GPT-4!
65 1
Claude 3智商测试101分超越人类/碾压GPT-4!
|
6月前
|
人工智能 安全 搜索推荐
Claude3正式发布!全面超越GPT4?
Claude3正式发布 。 OpenAI创始人奥特曼都还没来得及和马斯克掰扯完新仇旧恨,没关系,还有其他人会悄悄出手—— 瞩目时刻:Anthropic悄然发布最新一代大模型Claude 3!
132 2
Claude3正式发布!全面超越GPT4?