Whisper 整体架构图

简介: Whisper 整体架构图

Attention

注意力机制模块,兼容自注意力和交叉注意力。

AttentionBlock

Transformer 模块,包含一个自注意力,一个交叉注意力(可选)和一个 MLP 模块。

AudioEncoder+TextDecoder

音频编码器和文本解码器。编码器的 Transformer 模块只有自注意力,解码器的Transformer 模块有一个自注意力一个交叉注意力。

Whisper

Whisper 整体模型。

相关文章
|
11月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
7514 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
4974 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
机器学习/深度学习 人机交互 API
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
5773 0
|
12月前
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
2840 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
3897 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
弹性计算 Linux 数据安全/隐私保护
阿里云服务器搭建幻兽帕鲁【Palworld】游戏服详细教程,2025最新附价格表
阿里云提供2025年最新幻兽帕鲁游戏服务器申请与一键开服教程。支持4核16G(8人)和8核32G(20人)两种配置,系统自动部署游戏程序,本地安装STEAM即可开始游戏。价格低至70元/月起,选择地域、时长及操作系统后,2-3分钟完成创建。通过Steam客户端输入服务器IP与端口8211,轻松加入多人游戏,开启冒险之旅!更多详情见阿里云幻兽帕鲁专区。
|
XML 人工智能 文字识别
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。
5637 10
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
|
设计模式 测试技术 持续交付
提升代码质量的十大技巧
本文介绍了提升代码质量的十大技巧,涵盖遵循编码规范、编写可读性强的代码、重构、编写测试、代码审查、使用版本控制、持续集成/部署、性能优化、编写文档及学习新工具等方面,旨在帮助开发者提高软件的可维护性、可扩展性和性能。通过持续实践与学习,代码质量将不断提升。