BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

评估能力:BALROG 评估 LLMs 和 VLMs 在长期任务中的代理能力,包括规划、空间推理和探索。
多样化环境:集成多种复杂的强化学习游戏环境,从简单任务到极富挑战性的游戏,如 NetHack。
细粒度指标:设计细粒度的指标来衡量模型在各个游戏环境中的表现,并提供公开的排行榜。

正文(附运行示例)

BALROG 是什么

公众号: 蚝油菜花 - BALROG

BALROG 是一个用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力的基准测试工具。它特别关注模型在动态环境中的规划、空间推理和探索能力。BALROG 基于一系列挑战性的游戏环境,包括程序生成的环境如 NetHack,测试模型的性能。

BALROG 揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。它提供了一个开放和细粒度的评估框架,推动了自主代理研究的进展。

BALROG 的主要功能

  • 评估代理能力:评估 LLMs 和 VLMs 在长期任务中的代理能力,包括规划、空间推理和探索。
  • 多样化游戏环境:集成多种复杂的强化学习游戏环境,从简单任务到极富挑战性的游戏,如 NetHack。
  • 细粒度性能指标:设计细粒度的指标来衡量模型在各个游戏环境中的表现。
  • 模型排行榜:提供公开的排行榜,展示不同模型在 BALROG 环境中的平均完成百分比。
  • 支持多种模型:支持对开源和闭源的 LLMs 和 VLMs 进行评估。

BALROG 的技术原理

  • 强化学习环境:基于强化学习环境,让代理与环境的交互学习最优策略的方法。
  • 程序生成环境:BALROG 中的环境是程序生成的,环境和任务的复杂性基于算法动态调整,增加任务的多样性和挑战性。
  • 多模态输入处理:对于 VLMs,BALROG 支持处理视觉(图像)和语言(文本描述)输入,评估模型在多模态信息处理上的能力。
  • 零样本学习:BALROG 评估模型在零样本学习设置下的性能,即模型在没有特定任务训练的情况下处理新任务的能力。
  • 细粒度评估:基于设计细粒度的评估指标,提供对模型性能的深入理解,包括在特定任务上的进展和挑战。
  • 环境封装:基于封装不同的游戏环境,在统一的框架下进行评估,简化模型测试和比较的过程。

如何运行 BALROG

安装

建议使用 conda 进行安装:

conda create -n balrog python=3.10 -y
conda activate balrog

git clone https://github.com/balrog-ai/BALROG.git
cd BALROG
pip install -e .
balrog-post-install

使用 vLLM 进行本地评估

BALROG 支持使用 vLLM 在本地运行 LLMs/VLMs。以下是启动 vLLM 客户端并在 BALROG 上评估代理的步骤:

pip install vllm numpy==1.23
vllm serve meta-llama/Llama-3.2-1B-Instruct --port 8080

python eval.py \
  agent.type=naive \
  agent.max_image_history=0 \
  agent.max_history=16 \
  eval.num_workers=32 \
  client.client_name=vllm \
  client.model_id=meta-llama/Llama-3.2-1B-Instruct \
  client.base_url=http://0.0.0.0:8080/v1

使用流行 API 进行评估

BALROG 支持开箱即用的 OpenAI、Anthropic 和 Google Gemini API 客户端。首先设置 API 密钥:

export OPENAI_API_KEY=<KEY>
export ANTHROPIC_API_KEY=<KEY>
export GEMINI_API_KEY=<KEY>

然后运行评估:

python eval.py \
  agent.type=naive \
  agent.max_image_history=0 \
  eval.num_workers=64 \
  client.client_name=openai \
  client.model_id=gpt-4o-mini-2024-07-18

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
30天前
|
Java 测试技术 数据安全/隐私保护
软件测试中的自动化策略与工具应用
在软件开发的快速迭代中,自动化测试以其高效、稳定的特点成为了质量保证的重要手段。本文将深入探讨自动化测试的核心概念、常见工具的应用,以及如何设计有效的自动化测试策略,旨在为读者提供一套完整的自动化测试解决方案,帮助团队提升测试效率和软件质量。
|
8天前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
49 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
23天前
|
Web App开发 IDE 测试技术
Selenium:强大的 Web 自动化测试工具
Selenium 是一款强大的 Web 自动化测试工具,包括 Selenium IDE、WebDriver 和 Grid 三大组件,支持多种编程语言和跨平台操作。它能有效提高测试效率,解决跨浏览器兼容性问题,进行性能测试和数据驱动测试,尽管存在学习曲线较陡、不稳定等缺点,但其优势明显,是自动化测试领域的首选工具。
131 17
Selenium:强大的 Web 自动化测试工具
|
2月前
|
测试技术 API 微服务
性能测试并发量评估新思考
性能测试并发量评估新思考
65 5
性能测试并发量评估新思考
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
36 6
|
2月前
|
缓存 Ubuntu Linux
Linux环境下测试服务器的DDR5内存性能
通过使用 `memtester`和 `sysbench`等工具,可以有效地测试Linux环境下服务器的DDR5内存性能。这些工具不仅可以评估内存的读写速度,还可以检测内存中的潜在问题,帮助确保系统的稳定性和性能。通过合理配置和使用这些工具,系统管理员可以深入了解服务器内存的性能状况,为系统优化提供数据支持。
42 4
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
31 1
|
2月前
|
监控 测试技术 开发工具
移动端性能测试工具
移动端性能测试工具
53 2
|
2月前
|
安全 前端开发 测试技术
如何选择合适的自动化安全测试工具
选择合适的自动化安全测试工具需考虑多个因素,包括项目需求、测试目标、系统类型和技术栈,工具的功能特性、市场评价、成本和许可,以及集成性、误报率、社区支持、易用性和安全性。综合评估这些因素,可确保所选工具满足项目需求和团队能力。
|
2月前
|
安全 网络协议 关系型数据库
最好用的17个渗透测试工具
渗透测试是安全人员为防止恶意黑客利用系统漏洞而进行的操作。本文介绍了17款业内常用的渗透测试工具,涵盖网络发现、无线评估、Web应用测试、SQL注入等多个领域,包括Nmap、Aircrack-ng、Burp Suite、OWASP ZAP等,既有免费开源工具,也有付费专业软件,适用于不同需求的安全专家。
208 2

热门文章

最新文章