语音无障碍项目(Speech Accessibility Project,简称SAP)是一个由美国伊利诺伊大学厄巴纳-香槟分校主导、亚马逊、苹果、谷歌、Meta、微软等公司支持的项目。该项目致力于为言语障碍患者开发更好的语音识别技术。
中风、帕金森病、脑瘫、唐氏综合症(DS)、渐冻症(ALS)等疾病的患者可能同时患有言语障碍,其症状包括说话声音小、声调平、口吃、语速快、语速慢、发声时伴有气喘声等。依靠当今的自动语音识别(ASR)技术去准确识别这类患者的言语,需要收集该患者群体的大量语音数据,才能训练/微调出相对精准的ASR模型。
语音无障碍项目(SAP)多年来已经收集、脱敏、转录、整理了来自数百位言语障碍患者的数百小时的英语语音数据,并且可以将数据分发给愿意签署该项目“数据使用协议”的研究人员和商业开发商。在此之前,类似的英语语音数据集最大的仅包含来自十多位患者的二十多小时的语音数据。
Interspeech 2025 SAP挑战赛
为了进一步提升语音识别技术服务言语障碍患者的能力,语音无障碍项目(SAP)发起了Interspeech 2025语音无障碍项目挑战赛[1]。
该挑战赛为各参赛队提供了语音无障碍项目(SAP)收集整理的言语障碍患者的语音数据集中的一部分,作为训练数据,并采用了该数据集中的另外一部分对各参赛队提交的自动语音识别(ASR)模型进行评测。
评测指标
评测参赛模型的指标包括:
- WER(Word Error Rate):自动语音识别(ASR)领域的一个经典评测指标,在字词级别上衡量ASR模型的语音转文字的准确程度;
- SemScore(Semantic Score):为了评测针对言语障碍患者的自动语音识别而新设计的一个指标[2],用于衡量ASR模型的语音转文字的语义保真程度。
SemScore指标
设计SemScore指标的目的主要有以下两个。
目的一:为了克服WER等传统指标评测针对言语障碍患者的语音识别的局限性。以下举一个例子[1]来说明一下有关的局限性。
如果针对“how do you spell exercise”这句话的发音,两个ASR系统分别转录出“how do you feel exercise”和“how to spell exercise”,相应的WER分数则分别是20%和40%;由于WER分数越低越好,因此,从WER分数来看,前一个ASR系统相对较好;但如果由人来判断的话,后一个ASR系统转录得更准确。
目的二:考虑到当今的大语言模型(LLM)已经具有修正语音识别结果的能力(如下例所示),因此,LLM修正语音识别结果的能力需要同时衡量。
LLM修正语音识别结果的示例[2]:在下图中,“Hypothesis:”之后的文字是ASR模型转录后的文字;“Reference:”之后的文字是原文;“GPT-Corrected:”之后的文字是GPT修正转录文字之后的结果。

SemScore指标的公式是:

其中,α、β和γ经过实验确定为0.40、0.28和0.32[1][2]。
SemScore指标整合了以下三种评估:
- 逻辑蕴涵(Logical Entailment)评分——采用自然语言推理(Natural Language Inference,简称NLI)来衡量原文中的逻辑在ASR转录文本中得到保留的程度;
- 原文本与ASR转录文本的语义相似度;实际采用了BertScore F1语义相似度;
- 原文本与ASR转录文本的语音相似度;实际采用了Soundex编码的Jaro-Winkler相似度。
挑战赛结果
在22支参赛队中,12支参赛队的ASR模型在WER(Word Error Rate)指标上优于基线模型whisper-large-v2,17支参赛队的ASR模型在SemScore指标上优于基线模型whisper-large-v2。
排名靠前的五支参赛队的模型评测结果、以及基线模型(whisper-large-v2)的表现如下表所示[1];其中,字母“a”到“e”代表排名靠前的五支参赛队,“*”代表基线模型。

夺得桂冠的队伍以WER分数8.11%、SemScore分数88.44%的成绩,刷新了针对言语障碍患者的语音识别的基准。
排名靠前的几支参赛队都基于公开的ASR基础模型(NVIDIA的parakeet模型、或者OpenAI的whisper模型)进行了模型微调。
结合语音无障碍项目(SAP)的数据集进行模型微调,能够显著提升针对言语障碍患者的自动语音识别的性能。
下表列出了排名靠前的几支参赛队的模型架构、训练策略、以及主要技术[1];其中,字母“a”到“h”代表排名靠前的几支参赛队,“*”代表基线模型。

“a”、“b”参赛队均采用了将长音频切分成片段的方法。“a”参赛队采用了模型融合的方法。“c”参赛队采用了WhisperX预处理管道、以及基于规则的后处理,用以解决幻觉问题。“d”参赛队通过大语言模型来修正转录结果,从而提高了ASR的准确率。各参赛队还采用了语音增强(Speech Enhancement)、病因分类、课程学习(Curriculum Learning)、说话人向量映射等方法。
参考文献
[1] The Interspeech 2025 Speech Accessibility Project Challenge
https://arxiv.org/abs/2507.22047
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
[2] Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches
https://arxiv.org/abs/2506.16528
使用许可协议:CC BY