Falcon碾压LLaMa?Huggingface排行引争议,有人自发测评,结论却相反

简介: Falcon碾压LLaMa?Huggingface排行引争议,有人自发测评,结论却相反


编辑:蛋酱

大语言模型的竞争激烈,待在排行榜的第一位就要有成为众矢之的的觉悟。

说到开源的大语言模型,由 Meta 打造的 650 亿参数模型 LLaMA 曾经风头无两。


但这种一枝独秀的格局在上个月被打破了:5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,据介绍,该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练,并使用精选数据集增强。


刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规模 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和StableLM 等开源大模型。



后来,Falcon-40B Instruct 版本占据了 Huggingface 的 OpenLLM 排行榜首位。目前,Falcon-40B 排在第三位,而 LLaMA-65B 已经掉到了第六位。



HuggingFace 排行榜:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard


但 Falcon 模型自从开源的那一天起,就背负着众多的争议。


首先,从不差钱的阿联酋 TII 表示Falcon-40B 可以直接商用。这本来确实是难得的福利,但 Falcon-40B 遵循的协议是「TII Falcon LLM License」,有人在其中发现了一些「猫腻」


与 Apache License 2.0 开源许可对比,二者的相似之处在于都授予使用、修改和分发许可作品的广泛许可,要求在分发中包含许可文本和归属,并具有责任限制、担保豁免权,而区别在于 TII Falcon LLM License 要求一旦达到收入门槛,需支付商业用途特许权使用费,而大多数开源许可不需要。TII Falcon LLM License 对如何发布或分发作品也有额外限制, 比如要求归属于「Falcon LLM technology from the Technology Innovation Institute」。此外,TII Falcon LLM License 对修改源代码和目标代码都有额外的要求,除非分发编译的模型。


总之,该许可允许开放使用和修改,但同时又保留了很多自有权利。


还有一个争议的点,为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,明显低于官方数据 63.4?包括 Karpathy 本人,也因为这点疑惑而从未对 Falcon 模型给予任何评价。



图中数据来源:https://arxiv.org/pdf/2302.13971.pdf


我们知道,HuggingFace 使用的是「Eleuther AI Language Model Evaluation Harness」语言模型评估基准。如此巨大的分数差异,会与 HuggingFace 平台使用的测评基准有关系吗?



个中原因为何,这很难评。但昨天,一项关于 LLaMA-65B 的测评获得了一波来自 AI 大神的「围观」。


爱丁堡大学博士生符尧在推特上表示:「Falcon 真的比 LLaMA 好吗?简而言之:可能不会。」



他们在 MMLU 上重现了 LLaMA 65B eval,得到的分数是 61.4,比较接近官方数字(63.4),明显高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。


没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。



这次测评引起了大家的持续讨论,毕竟这也是大家持续疑惑的问题。


作为 Meta AI 的首席科学家,Yann LeCun 也转发了这条内容:「测试脚本问题……」



符尧本人表示,他们也正在测评 Falcon-40B,以验证其实际表现是否接近 52.7 的公开分数。


也有研究者表示:「很高兴看到开源社区能够快速自我纠正。对于 LLaMa 大于 10% 的 MMLU 分数差异,我也感到非常困惑。」



「Falcon 是一项好工作,更好的许可、更快生成的 MQA 等等…… 但考虑到数据、参数和计算,如此大幅优于 LLaMA 确实说不通。等待 Yao 的 Falcon 测评结果,我敢打赌它比 llama-65b 更差。」



这个故事至少启示了人们一个道理:尽管任何一个大模型的开源,对于学界和业界来说都是好消息。但与此同时,研究者们也需要更加谨慎。


「每当我的同事实施一个指标时,我立即询问他们是否真的检查了官方代码的复现,如果没有,则丢弃他们的结果。」



而且从现状来看,不管是 Falcon 还是 LLaMa,开源大语言模型的天花板都与 GPT-4 相距甚远,而 Falcon 和 LLaMa 都算是开源领域的重要力量,应该是一种良性竞争、共同进步的关系。


正如符尧在推特中指出的:「我们不打算在 LLaMA 和 Falcon 之间挑起战争 —— 两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简单的许可证优势,这也赋予了它强大的潜力!」


相关文章
|
自然语言处理 并行计算 安全
重磅| Falcon 180B 正式在 Hugging Face Hub 上发布!
如上所述,为跟踪对话而微调的模型版本使用了非常直接的训练模板。我们必须遵循同样的模式才能运行聊天式推理。作为参考,你可以看看聊天演示中的 format_prompt 函数:
247 0
|
测试技术
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
195 0
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
|
监控 数据库
open-falcon 安装以及配置
环境准备 请参考环境准备 同时,请再次检查当前的工作目录设置: export HOME=/home/work export WORKSPACE=$HOME/open-falcon mkdir -p $WORKSPACE 安装Transfer transfer默认监听在:8433端口上,agent会通过jsonrpc的方式来push数据上来。
2334 0
|
存储 监控 关系型数据库
|
7月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
2月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
52 6
|
4月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
65 1
|
7月前
|
人工智能 Rust Apache
社区供稿 | 更长、更强、更开放,零一万物 Yi-1.5 系列开源模型发布一周广受好评
5 月 13 日,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。