URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

2025-03-10 1230

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具，涵盖多语言、多轮对话、副语言信息等多维度任务，帮助开发者全面评估模型性能。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎙️ "语音模型还在跑单任务？这个评测神器让AI对话听懂情绪、玩转多语言！"

大家好，我是蚝油菜花。你是否正在为这些问题头疼——

👉 自研语音模型在中文场景表现优秀，但一遇多语言对话就「智商掉线」
👉 测试多轮对话时，模型总是忘记三句话前的关键信息
👉 想评估语音情感理解能力，却找不到权威评测标准...

今天要揭秘的 URO-Bench ，正在重新定义语音对话模型评测！这个由顶尖实验室打造的开源基准平台，覆盖16+基础任务与20+高阶挑战，从多语言问答到语音情感生成，从代码切换对话到道德推理，用「全维度压力测试」暴露出模型真实能力边界。已有团队用它3天定位出模型在多轮对话中的记忆缺陷——你的语音助手准备好迎接终极考验了吗？

🚀 快速阅读

URO-Bench 是一款专为端到端语音对话模型设计的基准测试工具。

核心功能：涵盖多语言、多轮对话、副语言信息等多维度任务，支持基础赛道和高级赛道。
技术原理：基于先进的语音合成（TTS）、语音识别（ASR）和情感识别技术，全面评估模型性能。

URO-Bench 是什么

URO-Bench

URO-Bench 是一款面向端到端语音对话模型（SDMs）的全面基准测试工具。它涵盖了多语言、多轮对话、副语言信息等多维度任务，旨在全面评估语音对话模型的性能。基准测试分为基础赛道和高级赛道，基础赛道包含16个数据集，涉及开放性问答、事实问答等任务；高级赛道则包含20个数据集，涵盖代码切换问答、语音情感生成、多语言问答等更复杂的任务。

URO-Bench 的设计目标是帮助开发者全面了解模型在不同任务中的表现，从而优化模型性能。通过提供多指标评估和参考模型，URO-Bench 为语音对话模型的研究和开发提供了强有力的支持。

URO-Bench 的主要功能

多语言支持：涵盖多种语言，包括英语和中文，支持跨语言对话任务。
多轮对话评估：包含多轮对话任务，评估模型在连续对话中的表现能力。
副语言信息评估：涉及语音情感理解、语音风格生成等副语言信息相关任务，更贴近真实语音交互场景。
基础赛道（Basic Track）：包含16个数据集，涵盖开放性问答、道德总结、事实问答、数学应用题等多种任务类型。
高级赛道（Pro Track）：包含20个数据集，涉及代码切换问答、语音情感生成、多语言问答、音频理解等更高级的任务。
四步评估流程：用户只需通过修改推理代码、配置脚本、运行自动评估管道等简单步骤，可快速获得模型在所有测试集上的结果。
多指标评估：通过多种指标（如 UTMOS、ASR-WER、情感理解准确率等）全面评估模型在语音理解、推理和口语对话方面的能力。
通用性：支持多种端到端语音对话模型，用户可以将自己的模型接入 URO-Bench 进行评估。
参考模型：提供了一些预训练模型（如 Whisper + GPT-4o、GLM-4-Voice 等）的评估结果作为参考。

URO-Bench 的技术原理

语音合成（TTS）：使用先进的TTS系统（如F5-TTS、CosyVoice）将文本数据转换为语音数据。
语音识别（ASR）：使用Whisper-large-v3等ASR系统将语音数据转录为文本，用于评估。
情感识别：使用emotion2vec等模型评估语音中的情感信息。
多语言处理：支持多种语言的输入和输出，评估模型的跨语言能力。

如何运行 URO-Bench

1. 环境准备

# 获取环境
git clone https://github.com/Ruiqi-Yan/URO-Bench
cd URO-Bench
conda create -n uro python=3.11
conda activate uro
pip install -r requirements.txt

# 获取数据
cd ..
export HF_ENDPOINT=https://hf-mirror.com    # 如果网络有问题
huggingface-cli download --repo-type dataset --resume-download Honggao/URO-Bench URO-Bench-data.zip --local-dir ./ --local-dir-use-symlinks False
unzip URO-Bench-data.zip

# 下载 whisper-large-v3（可选）
# 如果网络没问题可以忽略
modelscope download --model AI-ModelScope/whisper-large-v3 --local_dir ./whisper-large-v3

2. 修改推理代码

你可以基于 examples/example-test/inference_for_eval.py（单轮）和 examples/example-test/inference_multi.py（多轮）修改代码。只需将你的SDM推理代码封装在 load_sdm 和 respond 函数中，并确保输出文件符合要求格式。

3. 修改脚本

根据指南填写 scripts/config.sh。
根据你的推理代码完成 scripts/example.sh 的推理部分。请修改 line 20 和 line 88。

4. 运行自动评估管道

运行 example.sh 并获取结果。
你需要将 config.sh 的路径作为参数传递给 bash 脚本。

# bash scripts/example.sh /data/ruiqi.yan/URO-Bench/scripts/config.sh
bash scripts/example.sh scripts/config.sh

资源

GitHub 仓库：https://github.com/Ruiqi-Yan/URO-Bench
HuggingFace 仓库：https://huggingface.co/datasets/Honggao/URO-Bench