语音技术

首页 标签 语音技术
# 语音技术 #
关注
6483内容
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
2月前
|
基于卡尔曼滤波的声源跟踪方法研究(下)
基于卡尔曼滤波的声源跟踪方法研究(下)
|
2月前
|
基于卡尔曼滤波的声源跟踪方法研究(上)
基于卡尔曼滤波的声源跟踪方法研究(上)
如何利用 OpenVINO™ 部署 Qwen2 多模态模型
本文将分享如何利用 OpenVINO™ 工具套件在轻薄本上部署 Qwen2-Audio 以及 Qwen2-VL 多模态模型。
|
2月前
|
大模型的多样性:从语言处理到多模态智能
本文介绍了大模型在多个领域的应用,包括自然语言处理(如Transformer、GPT、BERT、T5)、计算机视觉(如CNN、ViT、GAN)、多模态智能(如CLIP、DALL-E)、语音识别与合成(如Wav2Vec、Tacotron)以及强化学习(如AlphaGo、PPO)。这些模型展现了卓越的性能,推动了人工智能技术的发展。
|
2月前
| |
来自: 视觉智能
FFmpeg开发笔记(五十八)把32位采样的MP3转换为16位的PCM音频
《FFmpeg开发实战:从零基础到短视频上线》一书中的“5.1.2 把音频流保存为PCM文件”章节介绍了将媒体文件中的音频流转换为原始PCM音频的方法。示例代码直接保存解码后的PCM数据,保留了原始音频的采样频率、声道数量和采样位数。但在实际应用中,有时需要特定规格的PCM音频。例如,某些语音识别引擎仅接受16位PCM数据,而标准MP3音频通常采用32位采样,因此需将32位MP3音频转换为16位PCM音频。
|
2月前
| |
来自: 云原生
实验介绍
【10月更文挑战第9天】实验介绍。
探索AI的无限可能:从理论到实践
【10月更文挑战第9天】在这篇文章中,我们将深入探讨人工智能(AI)的世界,从基本概念到实际应用,再到未来发展趋势。我们将通过实例和代码示例,揭示AI如何改变我们的生活和工作方式。无论你是AI领域的新手,还是有经验的开发者,这篇文章都将为你提供有价值的信息和启示。让我们一起探索AI的无限可能吧!
免费试用