Interspeech 2025「语音无障碍项目」挑战赛落幕

简介: 在针对言语障碍患者的语音识别比赛中,多支参赛队的ASR模型在性能上超过基线模型whisper-large-v2

语音无障碍项目(Speech Accessibility Project,简称SAP)是一个由美国伊利诺伊大学厄巴纳-香槟分校主导、亚马逊、苹果、谷歌、Meta、微软等公司支持的项目。该项目致力于为言语障碍患者开发更好的语音识别技术。

中风、帕金森病、脑瘫、唐氏综合症(DS)、渐冻症(ALS)等疾病的患者可能同时患有言语障碍,其症状包括说话声音小、声调平、口吃、语速快、语速慢、发声时伴有气喘声等。依靠当今的自动语音识别(ASR)技术去准确识别这类患者的言语,需要收集该患者群体的大量语音数据,才能训练/微调出相对精准的ASR模型。

语音无障碍项目(SAP)多年来已经收集、脱敏、转录、整理了来自数百位言语障碍患者的数百小时的英语语音数据,并且可以将数据分发给愿意签署该项目“数据使用协议”的研究人员和商业开发商。在此之前,类似的英语语音数据集最大的仅包含来自十多位患者的二十多小时的语音数据。

Interspeech 2025 SAP挑战赛

为了进一步提升语音识别技术服务言语障碍患者的能力,语音无障碍项目(SAP)发起了Interspeech 2025语音无障碍项目挑战赛[1]。

该挑战赛为各参赛队提供了语音无障碍项目(SAP)收集整理的言语障碍患者的语音数据集中的一部分,作为训练数据,并采用了该数据集中的另外一部分对各参赛队提交的自动语音识别(ASR)模型进行评测。

评测指标

评测参赛模型的指标包括:

  • WER(Word Error Rate):自动语音识别(ASR)领域的一个经典评测指标,在字词级别上衡量ASR模型的语音转文字的准确程度;
  • SemScore(Semantic Score):为了评测针对言语障碍患者的自动语音识别而新设计的一个指标[2],用于衡量ASR模型的语音转文字的语义保真程度。

SemScore指标

设计SemScore指标的目的主要有以下两个。

目的一:为了克服WER等传统指标评测针对言语障碍患者的语音识别的局限性。以下举一个例子[1]来说明一下有关的局限性。

如果针对“how do you spell exercise”这句话的发音,两个ASR系统分别转录出“how do you feel exercise”和“how to spell exercise”,相应的WER分数则分别是20%和40%;由于WER分数越低越好,因此,从WER分数来看,前一个ASR系统相对较好;但如果由人来判断的话,后一个ASR系统转录得更准确。

目的二:考虑到当今的大语言模型(LLM)已经具有修正语音识别结果的能力(如下例所示),因此,LLM修正语音识别结果的能力需要同时衡量。

LLM修正语音识别结果的示例[2]:在下图中,“Hypothesis:”之后的文字是ASR模型转录后的文字;“Reference:”之后的文字是原文;“GPT-Corrected:”之后的文字是GPT修正转录文字之后的结果。

Example.jpg

SemScore指标的公式是:

Formula_3.jpg

其中,α、β和γ经过实验确定为0.40、0.28和0.32[1][2]。

SemScore指标整合了以下三种评估:

  • 逻辑蕴涵(Logical Entailment)评分——采用自然语言推理(Natural Language Inference,简称NLI)来衡量原文中的逻辑在ASR转录文本中得到保留的程度;
  • 原文本与ASR转录文本的语义相似度;实际采用了BertScore F1语义相似度;
  • 原文本与ASR转录文本的语音相似度;实际采用了Soundex编码的Jaro-Winkler相似度。

挑战赛结果

在22支参赛队中,12支参赛队的ASR模型在WER(Word Error Rate)指标上优于基线模型whisper-large-v2,17支参赛队的ASR模型在SemScore指标上优于基线模型whisper-large-v2。

排名靠前的五支参赛队的模型评测结果、以及基线模型(whisper-large-v2)的表现如下表所示[1];其中,字母“a”到“e”代表排名靠前的五支参赛队,“*”代表基线模型。

Table_3.jpg

夺得桂冠的队伍以WER分数8.11%、SemScore分数88.44%的成绩,刷新了针对言语障碍患者的语音识别的基准。

排名靠前的几支参赛队都基于公开的ASR基础模型(NVIDIA的parakeet模型、或者OpenAI的whisper模型)进行了模型微调。

结合语音无障碍项目(SAP)的数据集进行模型微调,能够显著提升针对言语障碍患者的自动语音识别的性能。

下表列出了排名靠前的几支参赛队的模型架构、训练策略、以及主要技术[1];其中,字母“a”到“h”代表排名靠前的几支参赛队,“*”代表基线模型。

Table_4.jpg

“a”、“b”参赛队均采用了将长音频切分成片段的方法。“a”参赛队采用了模型融合的方法。“c”参赛队采用了WhisperX预处理管道、以及基于规则的后处理,用以解决幻觉问题。“d”参赛队通过大语言模型来修正转录结果,从而提高了ASR的准确率。各参赛队还采用了语音增强(Speech Enhancement)、病因分类、课程学习(Curriculum Learning)、说话人向量映射等方法。

参考文献

[1] The Interspeech 2025 Speech Accessibility Project Challenge

https://arxiv.org/abs/2507.22047

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches

https://arxiv.org/abs/2506.16528

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

目录
相关文章
|
9月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1270 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
监控 API 数据安全/隐私保护
小红书详情API接口的获取与应用
在互联网信息爆炸的时代,小红书凭借丰富的用户生成内容(UGC)和精准的推荐系统迅速崛起,成为重要的社区电商平台。为了帮助开发者高效利用平台数据,小红书开放平台提供了多种API接口,涵盖商品详情和笔记详情等。本文详细介绍了如何注册、申请权限、构建请求、处理响应及应用这些API接口,旨在为开发者提供全面的指南,助力数据驱动的决策与创新。
7118 1
|
11月前
|
自然语言处理 调度
扩散语言模型的下一跳:引入“路径因果耦合机制”
本文探讨扩散语言模型(D-LLM)的演化方向,指出当前扩散路径存在“孤岛化”问题,提出“路径因果耦合机制”,增强生成文本的逻辑一致性与结构性,提升生成质量与收敛速度,有望成为扩散语言模型迈向认知智能的重要一步。
311 0
|
机器学习/深度学习 人工智能 自然语言处理
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。
1727 60
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
|
JavaScript 算法 Linux
硬件工程师物料清单BOM对比工具
硬件工程师物料清单BOM对比工具
795 1
硬件工程师物料清单BOM对比工具
|
机器学习/深度学习 计算机视觉
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
【7月更文挑战第1天】新方法将图像转为1D token序列,减少计算复杂度,提高生成效率。在保持高画质(如gFID: 1.97 on ImageNet 256x256)的同时,TiTok比现有模型快410倍。虽有资源需求及token限制问题,但展示了图像处理的新方向。[论文链接](https://arxiv.org/abs/2406.07550)
972 7
|
监控 NoSQL Linux
linux常见的coredump原因都有哪些?
Core dump通常发生在程序遇到严重错误时,操作系统会生成core文件来记录程序崩溃时的内存、寄存器状态、栈信息等。
1420 3
|
人工智能 物联网 Linux
从端到云-全面讲解物联网全栈开发之道
万物互联的时代即将到来,互联网作为当今最为火热的方向之一,无数开发者沉迷其中,那么从事物联网开发需要哪些知识储备呢?在本次分享中,来自创客学院的刘正道老师从物联网就业与岗位分析、物联网与嵌入式、物联网行业解决方案、物联网课程体系四部分全面讲解物联网全栈开发之道,带你走向物联网开发世界。
7559 0
Open3D Transformation 变形
Open3D Transformation 变形
425 1

热门文章

最新文章