BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

评估能力:BALROG 评估 LLMs 和 VLMs 在长期任务中的代理能力,包括规划、空间推理和探索。
多样化环境:集成多种复杂的强化学习游戏环境,从简单任务到极富挑战性的游戏,如 NetHack。
细粒度指标:设计细粒度的指标来衡量模型在各个游戏环境中的表现,并提供公开的排行榜。

正文(附运行示例)

BALROG 是什么

公众号: 蚝油菜花 - BALROG

BALROG 是一个用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力的基准测试工具。它特别关注模型在动态环境中的规划、空间推理和探索能力。BALROG 基于一系列挑战性的游戏环境,包括程序生成的环境如 NetHack,测试模型的性能。

BALROG 揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。它提供了一个开放和细粒度的评估框架,推动了自主代理研究的进展。

BALROG 的主要功能

  • 评估代理能力:评估 LLMs 和 VLMs 在长期任务中的代理能力,包括规划、空间推理和探索。
  • 多样化游戏环境:集成多种复杂的强化学习游戏环境,从简单任务到极富挑战性的游戏,如 NetHack。
  • 细粒度性能指标:设计细粒度的指标来衡量模型在各个游戏环境中的表现。
  • 模型排行榜:提供公开的排行榜,展示不同模型在 BALROG 环境中的平均完成百分比。
  • 支持多种模型:支持对开源和闭源的 LLMs 和 VLMs 进行评估。

BALROG 的技术原理

  • 强化学习环境:基于强化学习环境,让代理与环境的交互学习最优策略的方法。
  • 程序生成环境:BALROG 中的环境是程序生成的,环境和任务的复杂性基于算法动态调整,增加任务的多样性和挑战性。
  • 多模态输入处理:对于 VLMs,BALROG 支持处理视觉(图像)和语言(文本描述)输入,评估模型在多模态信息处理上的能力。
  • 零样本学习:BALROG 评估模型在零样本学习设置下的性能,即模型在没有特定任务训练的情况下处理新任务的能力。
  • 细粒度评估:基于设计细粒度的评估指标,提供对模型性能的深入理解,包括在特定任务上的进展和挑战。
  • 环境封装:基于封装不同的游戏环境,在统一的框架下进行评估,简化模型测试和比较的过程。

如何运行 BALROG

安装

建议使用 conda 进行安装:

conda create -n balrog python=3.10 -y
conda activate balrog

git clone https://github.com/balrog-ai/BALROG.git
cd BALROG
pip install -e .
balrog-post-install

使用 vLLM 进行本地评估

BALROG 支持使用 vLLM 在本地运行 LLMs/VLMs。以下是启动 vLLM 客户端并在 BALROG 上评估代理的步骤:

pip install vllm numpy==1.23
vllm serve meta-llama/Llama-3.2-1B-Instruct --port 8080

python eval.py \
  agent.type=naive \
  agent.max_image_history=0 \
  agent.max_history=16 \
  eval.num_workers=32 \
  client.client_name=vllm \
  client.model_id=meta-llama/Llama-3.2-1B-Instruct \
  client.base_url=http://0.0.0.0:8080/v1

使用流行 API 进行评估

BALROG 支持开箱即用的 OpenAI、Anthropic 和 Google Gemini API 客户端。首先设置 API 密钥:

export OPENAI_API_KEY=<KEY>
export ANTHROPIC_API_KEY=<KEY>
export GEMINI_API_KEY=<KEY>

然后运行评估:

python eval.py \
  agent.type=naive \
  agent.max_image_history=0 \
  eval.num_workers=64 \
  client.client_name=openai \
  client.model_id=gpt-4o-mini-2024-07-18

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
4月前
|
机器学习/深度学习 并行计算 PyTorch
优化技巧与策略:提高 PyTorch 模型训练效率
【8月更文第29天】在深度学习领域中,PyTorch 是一个非常流行的框架,被广泛应用于各种机器学习任务中。然而,随着模型复杂度的增加以及数据集规模的增长,如何有效地训练这些模型成为了一个重要的问题。本文将介绍一系列优化技巧和策略,帮助提高 PyTorch 模型训练的效率。
330 0
|
4月前
|
机器学习/深度学习 PyTorch 数据处理
数据增强与 DataLoader:提升模型泛化能力的策略
【8月更文第29天】在深度学习中,数据的质量和数量对于模型的性能至关重要。数据增强是一种常用的技术,它通过对原始数据进行变换(如旋转、缩放、裁剪等)来生成额外的训练样本,从而增加训练集的多样性和规模。这有助于提高模型的泛化能力,减少过拟合的风险。同时,`DataLoader` 是 PyTorch 中一个强大的工具,可以有效地加载和预处理数据,并支持并行读取数据,这对于加速训练过程非常有帮助。
262 1
|
4月前
|
机器学习/深度学习 数据采集 算法
深度学习中的模型优化策略
【8月更文挑战第26天】在深度学习的海洋中,模型优化是航行者手中不可或缺的罗盘。本文将带你探索如何通过各种策略调整和优化你的深度学习模型,使其在复杂数据的环境中航行得更加精确与高效。我们将从基础的数据预处理讲起,逐步深入到高级的正则化技术,再到最新的优化算法趋势,为你的深度学习之旅提供全方位的指导。
|
5月前
|
人工智能
Prompt工程问题之调优prompt改善AI模型的推理结果如何解决
Prompt工程问题之调优prompt改善AI模型的推理结果如何解决
61 1
|
4月前
|
机器学习/深度学习 存储 物联网
深度学习模型的优化与部署
【8月更文第18天】随着深度学习技术的发展,模型规模变得越来越大,这对计算资源的要求也越来越高。为了能够在资源有限的边缘设备(如智能手机、物联网设备)上运行复杂的深度学习模型,我们需要采用一系列优化方法来减少模型大小和计算复杂度。本文将介绍几种常用的模型优化技术,并讨论如何在边缘设备或云端服务器上部署这些优化后的模型。
139 0
|
6月前
|
机器学习/深度学习
探索机器学习中的超参数调优策略
在机器学习模型的训练过程中,超参数的选择和调优对模型性能有着至关重要的影响。本文探讨了不同的超参数调优策略,分析了它们的优缺点,并结合实际案例展示了如何有效地选择和调整超参数以提升模型的准确性和泛化能力。
109 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。
405 2
|
5月前
|
机器学习/深度学习 人工智能 Python
性能调优:提升AI模型准确率的策略
【7月更文第17天】在人工智能的世界里,打造一个预测精准、表现优异的模型就像是烹饪一道美味佳肴,不仅要选对食材(特征),还得掌握火候(超参数调整)和调味技巧(正则化)。今天,我们就来聊聊如何通过《性能调优:提升AI模型准确率的策略》,让我们的AI模型变得更加聪明伶俐。
434 0
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
347 0

热门文章

最新文章

下一篇
无影云桌面