Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

简介: Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "方言识别天花板!清华团队开源语音大模型,40种语言词错率暴降68%"
大家好,我是蚝油菜花。当国际大厂还在卷英语识别时,中国团队已经用这个「东方语言专家」重新定义语音AI边界!

你是否也被这些语音难题困扰过——

  • 👉 智能音箱永远听不懂奶奶的潮汕话
  • 👉 跨国会议录音转写总把泰语识别成粤语
  • 👉 方言客服系统训练成本高到让CTO失眠...

今天解析的 Dolphin 语音大模型,正在颠覆多语言识别技术!这个清华与海天瑞声联合研发的「语言博物馆」:

  • 40语种+22方言:从藏语到闽南语,识别精度超Whisper两代
  • 军工级数据:21万小时训练时长,专有数据占比65%
  • 两级标签系统:精准区分方言,识别错误率直降63%

已有银行用它搭建方言呼叫中心,文末附《5分钟部署指南》——你的语音交互系统准备好迎接东方语言革命了吗?

🚀 快速阅读

Dolphin是面向东方语言的语音识别大模型。

  1. 功能:支持40种语言和22种中文方言的精准识别,提供开源模型和便捷接口。
  2. 技术:采用CTC-Attention混合架构,结合E-Branchformer编码器和4倍下采样技术。

Dolphin 是什么

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。该模型支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。

模型训练数据总时长21.2万小时,高质量专有数据13.8万小时,开源数据7.4万小时。在性能上,Dolphin的词错率(WER)显著低于Whisper同等尺寸模型,如base版本平均WER降低63.1%,small版本降低68.2%。采用CTC-Attention架构,结合E-Branchformer编码器和Transformer解码器,通过4倍下采样层加速计算。

Dolphin 的主要功能

  • 多语言及方言识别:支持40种东方语言和22种中文方言的精准识别。
  • 高精度语音转文字:词错率显著低于同类模型,base版本平均WER降低63.1%。
  • 自定义语言设置:采用两级语种标签系统(如),精准区分方言差异。
  • 开源支持:base与small版本模型与推理代码全面开源,支持二次开发。
  • 便捷接口:提供命令行和Python接口,支持快速集成到各类应用。

Dolphin 的技术原理

  • CTC-Attention架构:结合CTC的序列建模能力和注意力机制的上下文捕捉能力。
  • E-Branchformer编码器:并行分支结构有效捕捉语音信号的局部和全局依赖关系。
  • 4倍下采样层:减少输入特征序列长度,加速计算同时保留关键语音信息。
  • 两级语种标签系统:通过语言+地区标签(如)增强方言区分能力。

如何运行 Dolphin

环境准备

安装FFmpeg:

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# MacOS
brew install ffmpeg

安装Dolphin

pip install -U dataoceanai-dolphin

命令行使用

dolphin audio.wav --model small --lang_sym "zh" --region_sym "CN"

Python接口调用

import dolphin
model = dolphin.load_model("small", device="cuda")
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
12月前
|
人工智能 搜索推荐 机器人
基于大模型的语音交互音响将会上市销售
基于大模型的语音交互音响将会上市销售
116 6
基于大模型的语音交互音响将会上市销售
|
12月前
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
2天前
|
人工智能 语音技术 iOS开发
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
Kimi-Audio是月之暗面推出的开源音频基础模型,基于1300万小时多样化音频数据训练,采用混合输入架构和流式解码技术,支持语音识别、情感分析等十余种音频处理任务。
57 12
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
|
6月前
|
机器学习/深度学习 自然语言处理 Linux
Linux 中的机器学习:Whisper——自动语音识别系统
本文介绍了先进的自动语音识别系统 Whisper 在 Linux 环境中的应用。Whisper 基于深度学习和神经网络技术,支持多语言识别,具有高准确性和实时处理能力。文章详细讲解了在 Linux 中安装、配置和使用 Whisper 的步骤,以及其在语音助手、语音识别软件等领域的应用场景。
169 5
|
12月前
|
机器学习/深度学习 自然语言处理 Linux
【专栏】Linux 中的机器学习:Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔
【4月更文挑战第28天】本文探讨了在Linux环境下,先进自动语音识别系统Whisper的运用与实现高效ASR。Whisper基于PyTorch,支持多语言识别,具有高准确性和实时性。文中介绍了安装配置Whisper的步骤,包括安装依赖、下载代码、配置环境变量及编译安装。通过数据准备、模型训练和识别,可实现语音识别功能。Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔。
409 1
|
9月前
|
人工智能 语音技术 Windows
语音识别教程:Whisper
本文是一份详细的Whisper语音识别模型使用教程,包括了FFmpeg的安装、Whisper模型的安装与使用,以及如何实现实时录制音频并转录的步骤和代码示例,旨在帮助用户基于Whisper和GPT创建AI字幕。
|
10月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
10月前
|
机器学习/深度学习 自然语言处理 搜索推荐
通义语音大模型评测:迈向更自然、更智能的语音交互
随着人工智能技术的迅猛发展,语音识别和自然语言处理领域不断涌现出新的模型和应用。阿里云推出的通义语音大模型,正是在这一背景下应运而生。本文将对通义语音大模型进行详细评测,探讨其技术架构、应用场景、性能表现以及未来发展前景。
831 0
|
11月前
|
人工智能 自然语言处理 语音技术
GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布
GigaSpeech 2 是一个持续扩展的、多领域多语言的大规模语音识别语料库,旨在促进低资源语言语音识别领域的发展和研究。
|
12月前
|
机器学习/深度学习 自然语言处理 PyTorch
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

热门文章

最新文章

相关产品

  • 智能语音交互
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等