备案控制台

开发者社区 ModelScope模型即服务语音正文

用python实现语音端点检测(Voice Activity Detection,VAD)

用python实现语音端点检测(Voice Activity Detection,VAD)

1.准备环境https://github.com/marsbroshok/VAD-python

里面的vad.py文件

2.具体代码

from vad import VoiceActivityDetector****import wave

if __name__ == "__main__": load_file = "test.wav" save_file = "process.wav" # 获取vad分割节点 v = VoiceActivityDetector(load_file) raw_detection = v.detect_speech() speech_labels, point_labels = v.convert_windows_to_readible_labels(raw_detection) if len(point_labels) != 0: # 根据节点音频分割并连接 data = v.data cut_data = [] Fs = v.rate for start, end in point_labels: cut_data.extend(data[int(start):int(end)])

# 保存音频 f = wave.open(save_file, ’w’) nframes = len(cut_data) f.setparams((1, 2, Fs, nframes, ’NONE’, ’NONE’)) # 声道，字节数，采样频率，*，* wavdata = np.array(cut_data) wavdata = wavdata.astype(np.int16) f.writeframes(wavdata) # outData f.close()

3.部分参数

vad.py文件

class VoiceActivityDetector(): """ Use signal energy to detect voice activity in wav file """

def __init__(self, wave_input_filename): self._read_wav(wave_input_filename)._convert_to_mono() #沿音频数据移动 20 毫秒的窗口。 self.sample_window = 0.02 # 20 ms self.sample_overlap = 0.01 # 10ms #应用长度为 0.5s 的中值滤波器来平滑检测到的语音区域。 self.speech_window = 0.5 # half a second #计算语带能量与窗口总能量的比值。如果比率大于阈值（默认为 0.6），则将窗口标记为语音 self.speech_energy_threshold = 0.6 # 60% of energy in voice band #中值滤波器（滤波保留2000-8000hz） self.speech_start_band = 2000 self.speech_end_band = 8000 self.data_speech = []

展开

收起

FSMN语音端点检测-中文-通用-16k

游客tqsxlcu6ie37g 2023-04-14 18:26:37 1392 版权

0 条回答

写回答

取消提交回答

相关问答

如何使用Python playwright采集网页数据不被检测到？

116

2

0

对于Python playwright采集数据，如何才能绕过各种反爬检测？

133

1

0

视觉智能平台 python调用图像处理下边的皮肤病检测出现MissingUrl code400咋整？

87

2

0

在modelscope-funasr中python客户端调用服务怎么没有采集语音呢？

102

1

0

阿里云语音AI用的是PYTHON 的SDK 没有看到STOP 方法啊，是这个吗？

115

1

0

阿里云语音AI Python sdk 我想停止的时候就不要在接收数据了，怎么操作？

87

1

0

modelscope-funasr的python版本的vad模型，现在支持并发吗？

91

0

0

在阿里云语音AI中有实时语音合成的python代码吗？

163

3

0

阿里云语音AI python这个sdk本地跑的时候对设备有一定要求是吗？

114

1

0

如何进行实时语音端点检测啊？modelscope-funasr有这个相关的python代码示例吗？

183

1

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关文章

基于Python+django的大学生自习室预约系统

AgentRun Sandbox SDK 正式开源！集成 LangChain 等主流框架，一键开启智能体沙箱新体验

如何保证Python采集淘商品详情数据的准确性？API接口系列

AI搜索引擎内容、GEO优化工具开发工程的“可信赖”基石：内容真实性、权威性与ADSM工程化闭环

支持"同款搜索"（精确匹配）和"相似搜索"（模糊匹配）两种模式

热门讨论

热门文章

关于 Windows平台上 ttsfrd 库的问题。

modelscope上跑报错，提示要pip install ttsfrd，搞不定

使用SambertHifigan个性化语音合成-中文-预训练-16k生成的声音怎么调节语速呢？

No module named 'ttsfrd'

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

模型训练速度太慢

KeyError: 'asr-inference is not in the pipelines r

在Windows平台上关于 ModelScorpe Audio 安装涉及 kwsbp 的问题

语音合成speech_sambert-hifigan_tts_zh-cn_16k模型没有使用gpu

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

展开全部

还有其他疑问?