Interspeech 2025「语音无障碍项目」挑战赛落幕

简介: 在针对言语障碍患者的语音识别比赛中,多支参赛队的ASR模型在性能上超过基线模型whisper-large-v2

语音无障碍项目(Speech Accessibility Project,简称SAP)是一个由美国伊利诺伊大学厄巴纳-香槟分校主导、亚马逊、苹果、谷歌、Meta、微软等公司支持的项目。该项目致力于为言语障碍患者开发更好的语音识别技术。

中风、帕金森病、脑瘫、唐氏综合症(DS)、渐冻症(ALS)等疾病的患者可能同时患有言语障碍,其症状包括说话声音小、声调平、口吃、语速快、语速慢、发声时伴有气喘声等。依靠当今的自动语音识别(ASR)技术去准确识别这类患者的言语,需要收集该患者群体的大量语音数据,才能训练/微调出相对精准的ASR模型。

语音无障碍项目(SAP)多年来已经收集、脱敏、转录、整理了来自数百位言语障碍患者的数百小时的英语语音数据,并且可以将数据分发给愿意签署该项目“数据使用协议”的研究人员和商业开发商。在此之前,类似的英语语音数据集最大的仅包含来自十多位患者的二十多小时的语音数据。

Interspeech 2025 SAP挑战赛

为了进一步提升语音识别技术服务言语障碍患者的能力,语音无障碍项目(SAP)发起了Interspeech 2025语音无障碍项目挑战赛[1]。

该挑战赛为各参赛队提供了语音无障碍项目(SAP)收集整理的言语障碍患者的语音数据集中的一部分,作为训练数据,并采用了该数据集中的另外一部分对各参赛队提交的自动语音识别(ASR)模型进行评测。

评测指标

评测参赛模型的指标包括:

  • WER(Word Error Rate):自动语音识别(ASR)领域的一个经典评测指标,在字词级别上衡量ASR模型的语音转文字的准确程度;
  • SemScore(Semantic Score):为了评测针对言语障碍患者的自动语音识别而新设计的一个指标[2],用于衡量ASR模型的语音转文字的语义保真程度。

SemScore指标

设计SemScore指标的目的主要有以下两个。

目的一:为了克服WER等传统指标评测针对言语障碍患者的语音识别的局限性。以下举一个例子[1]来说明一下有关的局限性。

如果针对“how do you spell exercise”这句话的发音,两个ASR系统分别转录出“how do you feel exercise”和“how to spell exercise”,相应的WER分数则分别是20%和40%;由于WER分数越低越好,因此,从WER分数来看,前一个ASR系统相对较好;但如果由人来判断的话,后一个ASR系统转录得更准确。

目的二:考虑到当今的大语言模型(LLM)已经具有修正语音识别结果的能力(如下例所示),因此,LLM修正语音识别结果的能力需要同时衡量。

LLM修正语音识别结果的示例[2]:在下图中,“Hypothesis:”之后的文字是ASR模型转录后的文字;“Reference:”之后的文字是原文;“GPT-Corrected:”之后的文字是GPT修正转录文字之后的结果。

Example.jpg

SemScore指标的公式是:

Formula_3.jpg

其中,α、β和γ经过实验确定为0.40、0.28和0.32[1][2]。

SemScore指标整合了以下三种评估:

  • 逻辑蕴涵(Logical Entailment)评分——采用自然语言推理(Natural Language Inference,简称NLI)来衡量原文中的逻辑在ASR转录文本中得到保留的程度;
  • 原文本与ASR转录文本的语义相似度;实际采用了BertScore F1语义相似度;
  • 原文本与ASR转录文本的语音相似度;实际采用了Soundex编码的Jaro-Winkler相似度。

挑战赛结果

在22支参赛队中,12支参赛队的ASR模型在WER(Word Error Rate)指标上优于基线模型whisper-large-v2,17支参赛队的ASR模型在SemScore指标上优于基线模型whisper-large-v2。

排名靠前的五支参赛队的模型评测结果、以及基线模型(whisper-large-v2)的表现如下表所示[1];其中,字母“a”到“e”代表排名靠前的五支参赛队,“*”代表基线模型。

Table_3.jpg

夺得桂冠的队伍以WER分数8.11%、SemScore分数88.44%的成绩,刷新了针对言语障碍患者的语音识别的基准。

排名靠前的几支参赛队都基于公开的ASR基础模型(NVIDIA的parakeet模型、或者OpenAI的whisper模型)进行了模型微调。

结合语音无障碍项目(SAP)的数据集进行模型微调,能够显著提升针对言语障碍患者的自动语音识别的性能。

下表列出了排名靠前的几支参赛队的模型架构、训练策略、以及主要技术[1];其中,字母“a”到“h”代表排名靠前的几支参赛队,“*”代表基线模型。

Table_4.jpg

“a”、“b”参赛队均采用了将长音频切分成片段的方法。“a”参赛队采用了模型融合的方法。“c”参赛队采用了WhisperX预处理管道、以及基于规则的后处理,用以解决幻觉问题。“d”参赛队通过大语言模型来修正转录结果,从而提高了ASR的准确率。各参赛队还采用了语音增强(Speech Enhancement)、病因分类、课程学习(Curriculum Learning)、说话人向量映射等方法。

参考文献

[1] The Interspeech 2025 Speech Accessibility Project Challenge

https://arxiv.org/abs/2507.22047

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches

https://arxiv.org/abs/2506.16528

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

目录
相关文章
|
存储 编解码 计算机视觉
使用ffmpeg缩小视频体积的几种方式
上述命令将输入视频input.mp4转换为H.265编码格式,并将结果保存为output.mp4文件。其中,-c:v选项表示视频编码器,libx265表示使用x265编码器,-crf选项表示视频质量,28表示目标视频质量,值越小视频质量越高,文件体积越大。
671 0
|
JavaScript 算法 Linux
硬件工程师物料清单BOM对比工具
硬件工程师物料清单BOM对比工具
605 1
硬件工程师物料清单BOM对比工具
|
机器学习/深度学习 人工智能 自然语言处理
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(四)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
1903 0
Open3D Transformation 变形
Open3D Transformation 变形
273 1
AttributeError: module 'torchaudio' has no attribute 'io'问题解决
【5月更文挑战第3天】AttributeError: module 'torchaudio' has no attribute 'io'问题解决
674 4
|
存储 JSON 安全
Transformers 4.37 中文文档(七)(2)
Transformers 4.37 中文文档(七)
213 0
|
机器学习/深度学习 人工智能 分布式计算
因果推断:效应估计的常用方法及工具变量讨论
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
2661 0
因果推断:效应估计的常用方法及工具变量讨论
|
存储 Linux 虚拟化
【Linux 学习的第一步】Linux环境选择指南:从WSL到实体系统
【Linux 学习的第一步】Linux环境选择指南:从WSL到实体系统
713 0
|
存储 JSON JavaScript
HarmonyOS应用开发者基础认证 模拟考试 题库
HarmonyOS应用开发者基础认证 模拟考试 题库
2794 0