Llama3-8B秒杀700亿巨兽?北大博士生等全新BoT框架推理暴涨70倍,24点图形推理一步成神

简介: 【6月更文挑战第16天】北大团队提出BoT框架,增强LLM推理能力。新方法使用"meta-buffer"存储思维模板,提升效率70倍。在多个推理任务上表现优越,尤其在"Game of 24"等任务中成绩显著,挑战Llama3-70B。然而,计算资源需求大,对复杂任务鲁棒性仍有待提升。[链接:https://arxiv.org/abs/2406.04271]**

最近,一篇由北京大学博士生及其团队撰写的论文在人工智能领域引起了广泛关注。该论文提出了一种名为"Buffer of Thoughts"(BoT)的新型推理框架,旨在通过增强大型语言模型(LLMs)的准确性、效率和鲁棒性来提高其推理能力。

该研究的主要贡献在于,它提出了一种名为"meta-buffer"的存储机制,用于保存一系列从各种任务的问题解决过程中提取出来的高层次思维模板,即"thought-template"。然后,对于每个问题,系统会检索一个相关的思维模板,并自适应地将其实例化,以特定的推理结构进行高效推理。

为了确保BoT框架的可扩展性和稳定性,研究团队还提出了一种名为"buffer-manager"的机制,用于动态地更新meta-buffer。这样,随着解决的任务越来越多,meta-buffer的容量也会得到增强。

为了验证BoT框架的有效性,研究团队在10个具有挑战性的推理密集型任务上进行了广泛的实验。结果显示,与之前的SOTA(state-of-the-art)方法相比,BoT框架取得了显著的性能提升。例如,在"Game of 24"任务上,性能提升了11%;在"Geometric Shapes"任务上,提升了20%;而在"Checkmate-in-One"任务上,更是惊人地提升了51%。

进一步的分析表明,BoT框架具有出色的泛化能力和模型鲁棒性。与多查询提示方法(如树/图思维)相比,BoT框架的平均成本仅需12%,但性能却明显更好。值得注意的是,研究团队发现,他们的Llama3-8B+BoT模型在性能上甚至有潜力超过Llama3-70B模型。

然而,尽管BoT框架取得了令人印象深刻的成果,但也有一些潜在的问题和挑战需要解决。首先,BoT框架的实现和优化可能需要大量的计算资源和时间,这对于一些研究团队或个人来说可能是一个限制因素。其次,BoT框架的鲁棒性在面对一些复杂的、非标准的问题或任务时可能仍然存在一些限制。

此外,尽管BoT框架在推理密集型任务上取得了显著的性能提升,但在一些其他类型的任务上,如自然语言生成或理解任务,其效果可能没有那么明显。因此,未来的研究可能需要探索如何将BoT框架与其他技术或方法结合,以进一步提高LLMs在各种任务上的性能。

论文地址:https://arxiv.org/abs/2406.04271

目录
相关文章
|
4月前
|
数据采集 人工智能 自然语言处理
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
【8月更文挑战第29天】豆包大模型与香港大学团队合作研发的ByteCheckpoint系统,旨在应对大语言模型(LLM)开发中的数据规模庞大、计算资源昂贵及训练过程不稳定的挑战。该系统通过统一检查点机制、细粒度资源管理和多模态数据处理等创新技术,显著提升了LLM的训练效率和模型性能,并已在多个实际场景中取得显著效果。
88 4
|
7天前
|
人工智能 监控 测试技术
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合高校团队推出Video-XL,一款专为超长视频设计的理解模型。通过视觉上下文潜在摘要技术,Video-XL将大量视觉数据高效压缩,显著提升理解准确性并降低计算成本。在多项测试中,Video-XL超越现有方法,展现出卓越性能。其开源为视频理解领域带来新活力,适用于视频监控、电影分析等多种场景。尽管面临一些挑战,Video-XL仍是视频理解领域的重要里程碑。
20 6
|
4月前
|
数据采集 自然语言处理 测试技术
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
71 4
|
5月前
|
人工智能 算法
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了
【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)
93 9
|
7月前
|
人工智能 搜索推荐 数据可视化
国产黑马一年肝出万亿参数MoE!霸榜多模态
【4月更文挑战第2天】阶跃星辰推出万亿参数的MoE多模态大模型,引领AI新突破。采用混合专家架构,适应不同任务,提升效率与性能。MoE已应用于跃问助手和冒泡鸭AI平台,提供个性化服务与丰富互动体验。然而,巨大模型的训练管理、过拟合、知识表示及伦理问题仍是AGI发展道路上的挑战。
79 4
国产黑马一年肝出万亿参数MoE!霸榜多模态
|
7月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
110 0
|
7月前
|
机器学习/深度学习 人工智能 数据可视化
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减
678 0
|
机器学习/深度学习 人工智能 搜索推荐
3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow
3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow
412 0
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
290 0
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
339 0