Llama3-8B秒杀700亿巨兽？北大博士生等全新BoT框架推理暴涨70倍，24点图形推理一步成神-阿里云开发者社区

Llama3-8B秒杀700亿巨兽？北大博士生等全新BoT框架推理暴涨70倍，24点图形推理一步成神

2024-06-16 70

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第16天】北大团队提出BoT框架，增强LLM推理能力。新方法使用"meta-buffer"存储思维模板，提升效率70倍。在多个推理任务上表现优越，尤其在"Game of 24"等任务中成绩显著，挑战Llama3-70B。然而，计算资源需求大，对复杂任务鲁棒性仍有待提升。[链接：https://arxiv.org/abs/2406.04271]**

最近，一篇由北京大学博士生及其团队撰写的论文在人工智能领域引起了广泛关注。该论文提出了一种名为"Buffer of Thoughts"（BoT）的新型推理框架，旨在通过增强大型语言模型（LLMs）的准确性、效率和鲁棒性来提高其推理能力。

该研究的主要贡献在于，它提出了一种名为"meta-buffer"的存储机制，用于保存一系列从各种任务的问题解决过程中提取出来的高层次思维模板，即"thought-template"。然后，对于每个问题，系统会检索一个相关的思维模板，并自适应地将其实例化，以特定的推理结构进行高效推理。

为了确保BoT框架的可扩展性和稳定性，研究团队还提出了一种名为"buffer-manager"的机制，用于动态地更新meta-buffer。这样，随着解决的任务越来越多，meta-buffer的容量也会得到增强。

为了验证BoT框架的有效性，研究团队在10个具有挑战性的推理密集型任务上进行了广泛的实验。结果显示，与之前的SOTA（state-of-the-art）方法相比，BoT框架取得了显著的性能提升。例如，在"Game of 24"任务上，性能提升了11%；在"Geometric Shapes"任务上，提升了20%；而在"Checkmate-in-One"任务上，更是惊人地提升了51%。

进一步的分析表明，BoT框架具有出色的泛化能力和模型鲁棒性。与多查询提示方法（如树/图思维）相比，BoT框架的平均成本仅需12%，但性能却明显更好。值得注意的是，研究团队发现，他们的Llama3-8B+BoT模型在性能上甚至有潜力超过Llama3-70B模型。

然而，尽管BoT框架取得了令人印象深刻的成果，但也有一些潜在的问题和挑战需要解决。首先，BoT框架的实现和优化可能需要大量的计算资源和时间，这对于一些研究团队或个人来说可能是一个限制因素。其次，BoT框架的鲁棒性在面对一些复杂的、非标准的问题或任务时可能仍然存在一些限制。

此外，尽管BoT框架在推理密集型任务上取得了显著的性能提升，但在一些其他类型的任务上，如自然语言生成或理解任务，其效果可能没有那么明显。因此，未来的研究可能需要探索如何将BoT框架与其他技术或方法结合，以进一步提高LLMs在各种任务上的性能。

论文地址：https://arxiv.org/abs/2406.04271

Llama3-8B秒杀700亿巨兽？北大博士生等全新BoT框架推理暴涨70倍，24点图形推理一步成神

热门文章

最新文章

相关课程

相关电子书

相关实验场景