文档备案控制台

开发者社区 ModelScope模型即服务语音正文

VAD 模块中 FSMN encoder输出248类的标签该如何提取

请问FSMN encoder输出248类具体是怎么划分的，如果我想训练的话，这部分特征该如何提取呢～

展开

收起

FSMN语音端点检测-中文-通用-16k

游客wy72htiusu6gc 2023-06-28 18:06:12 348 版权

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

并使用类似的方法进行分类，那么您需要先对音频信号进行分帧，并将每个帧送入 FSMN Encoder 进行编码和分类。具体来说，您可以使用 Python 的 librosa 库对音频信号进行分帧，例如：

python
Copy
import librosa

加载音频文件

audio_file = 'audio.wav'
y, sr = librosa.load(audio_file, sr=16000)

将音频信号分成多个帧

frame_length = 0.02 # 每帧时长为 20 毫秒
frame_hop = 0.01 # 帧移为 10 毫秒
n_fft = int(frame_length sr)
hop_length = int(frame_hop sr)
frames = librosa.util.frame(y, frame_length=n_fft, hop_length=hop_length)
在上面的代码中，我们首先使用 librosa 库加载音频文件，并设置采样率为 16kHz。然后，我们将音频信号分成多个帧，每个帧的时长为 20 毫秒，帧移为 10 毫秒。frames 变量是一个二维数组，其中每行表示一个帧，每列表示帧内的采样点。

2023-07-10 16:32:28

赞同展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

92471

51

0

this xml file does not appear to have any style in

60935

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

141682

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1532

1

0

#支付宝授权提示请在支付宝客户端打开链接

24298

19

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

283538

11

0

#支付宝周期扣款无线端唤起签约页面提示“免密支付安全验证”？

8079

2

0

基础语言百问-Python

69562

30

0

sql server的用户名和密码怎么查啊？

41272

21

0

yyyy-MM-dd'T'HH：mm：ss.SSSZZ和yyyy-MM-dd'T'HH：mm：ss.

47823

9

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关文章

基于MFCC（梅尔频率倒谱系数）和GMM（高斯混合模型）的语音识别

小结

构建智能客服：阿里云智能语音交互+函数计算的低成本方案

docker安装部署FunASR

【深度建议】打破设备壁垒：关于通义千问实现“全平台智能语音交互”与“知识闭环”的五大核心建议

热门讨论

热门文章

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

语音识别端到端模型解读：FSMN及其变体模型

PyTorch Transformer 英中翻译超详细教程

modelscope报错

uniASR如何设置不同的解码模式

SambertHifigan个性化语音合成-中文-预训练执行基于PTTS-basemodel微调报错

KeyError: 'asr-inference is not in the pipelines r

使用Funcodec 模型对双声道mp3 进行压缩还原后生成的是单声道，如何解决？

语音识别系列︱利用达摩院ModelScope进行语音识别+标点修复

VAD 模块中 FSMN encoder输出248类的标签该如何提取

展开全部

docker安装部署FunASR

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

展开全部

还有其他疑问?