【8月更文挑战第31天】近日,Tianqi Xu等研究者在arXiv发布了题为《CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents》的论文,提出了一种全新的智能体基准测试框架CRAB,旨在解决现有MLM智能体交互环境基准测试的局限性。CRAB支持跨环境任务,提供细粒度评价方法及高效的任务构建机制,并包含100个跨平台任务的Crab Benchmark-v0。实验结果显示,GPT-4o单智能体在该基准测试中表现最佳,任务完成率达35.26%。CRAB为未来跨环境智能体研究提供了重要参考。