Llama3-8B秒杀700亿巨兽?北大博士生等全新BoT框架推理暴涨70倍,24点图形推理一步成神

简介: 【6月更文挑战第16天】北大团队提出BoT框架,增强LLM推理能力。新方法使用"meta-buffer"存储思维模板,提升效率70倍。在多个推理任务上表现优越,尤其在"Game of 24"等任务中成绩显著,挑战Llama3-70B。然而,计算资源需求大,对复杂任务鲁棒性仍有待提升。[链接:https://arxiv.org/abs/2406.04271]**

最近,一篇由北京大学博士生及其团队撰写的论文在人工智能领域引起了广泛关注。该论文提出了一种名为"Buffer of Thoughts"(BoT)的新型推理框架,旨在通过增强大型语言模型(LLMs)的准确性、效率和鲁棒性来提高其推理能力。

该研究的主要贡献在于,它提出了一种名为"meta-buffer"的存储机制,用于保存一系列从各种任务的问题解决过程中提取出来的高层次思维模板,即"thought-template"。然后,对于每个问题,系统会检索一个相关的思维模板,并自适应地将其实例化,以特定的推理结构进行高效推理。

为了确保BoT框架的可扩展性和稳定性,研究团队还提出了一种名为"buffer-manager"的机制,用于动态地更新meta-buffer。这样,随着解决的任务越来越多,meta-buffer的容量也会得到增强。

为了验证BoT框架的有效性,研究团队在10个具有挑战性的推理密集型任务上进行了广泛的实验。结果显示,与之前的SOTA(state-of-the-art)方法相比,BoT框架取得了显著的性能提升。例如,在"Game of 24"任务上,性能提升了11%;在"Geometric Shapes"任务上,提升了20%;而在"Checkmate-in-One"任务上,更是惊人地提升了51%。

进一步的分析表明,BoT框架具有出色的泛化能力和模型鲁棒性。与多查询提示方法(如树/图思维)相比,BoT框架的平均成本仅需12%,但性能却明显更好。值得注意的是,研究团队发现,他们的Llama3-8B+BoT模型在性能上甚至有潜力超过Llama3-70B模型。

然而,尽管BoT框架取得了令人印象深刻的成果,但也有一些潜在的问题和挑战需要解决。首先,BoT框架的实现和优化可能需要大量的计算资源和时间,这对于一些研究团队或个人来说可能是一个限制因素。其次,BoT框架的鲁棒性在面对一些复杂的、非标准的问题或任务时可能仍然存在一些限制。

此外,尽管BoT框架在推理密集型任务上取得了显著的性能提升,但在一些其他类型的任务上,如自然语言生成或理解任务,其效果可能没有那么明显。因此,未来的研究可能需要探索如何将BoT框架与其他技术或方法结合,以进一步提高LLMs在各种任务上的性能。

论文地址:https://arxiv.org/abs/2406.04271

目录
相关文章
|
1月前
|
人工智能 搜索推荐 数据可视化
国产黑马一年肝出万亿参数MoE!霸榜多模态
【4月更文挑战第2天】阶跃星辰推出万亿参数的MoE多模态大模型,引领AI新突破。采用混合专家架构,适应不同任务,提升效率与性能。MoE已应用于跃问助手和冒泡鸭AI平台,提供个性化服务与丰富互动体验。然而,巨大模型的训练管理、过拟合、知识表示及伦理问题仍是AGI发展道路上的挑战。
36 4
国产黑马一年肝出万亿参数MoE!霸榜多模态
|
1月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
60 0
|
机器学习/深度学习 人工智能 搜索推荐
3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow
3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow
360 0
|
机器学习/深度学习 编解码 数据处理
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
237 0
|
机器学习/深度学习 人工智能 前端开发
大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集
大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集
138 0
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
310 0
|
存储 人工智能 算法
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
159 0
|
机器学习/深度学习 人工智能 自然语言处理
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
众筹超算直播训练1760亿参数AI大模型,九百工程师搞开源
134 0
|
机器学习/深度学习 人工智能 自然语言处理
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
434 0