paraformer-large-vad-punc

简介: 用的是 paraformer-large-vad-punc 音频版本,识别结果经常出现多句话粘成一句话的问题比如我说了一句话,安静了四五秒,再说另一句话,识别出来算是一句话,没有办法能很好地分开成两句话现在出来了大量的这种问题,很多话被连成一句话,很影响效果vad 模型是不是效果不太好啊? 有什么参数可以设置吗?求教

用的是 paraformer-large-vad-punc 音频版本,识别结果经常出现多句话粘成一句话的问题
比如我说了一句话,安静了四五秒,再说另一句话,识别出来算是一句话,没有办法能很好地分开成两句话
现在出来了大量的这种问题,很多话被连成一句话,很影响效果
vad 模型是不是效果不太好啊? 有什么参数可以设置吗?
求教

相关文章
|
7月前
|
机器学习/深度学习 编解码 算法
图像超分:RFB-ESRGAN(Perceptual Extreme Super Resolution Network with Receptive Field Block)
图像超分:RFB-ESRGAN(Perceptual Extreme Super Resolution Network with Receptive Field Block)
155 0
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
41 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
算法 PyTorch 算法框架/工具
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
719 0
paraformer支持设置 speech_noise_threshold 这个参数吗 ?
请问:speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 这个模型支持设置 speech_noise_threshold 这个参数吗 ? vad 本身是支持的,但对这个集成的模型好像不起作用? 如果支持,应该如何正确地设置呢 ? 如果不支持,那该模型有没有什么方法可以过滤掉背景噪声? 经常会有背景噪声被识别出文字
64 0
|
人工智能 自然语言处理 PyTorch
使用Unit Scaling进行FP16 和 FP8 训练
Unit Scaling 是一种新的低精度机器学习方法,能够在没有损失缩放的情况下训练 FP16 和 FP8 中的语言模型。
224 0
使用Unit Scaling进行FP16 和 FP8 训练
|
机器学习/深度学习 算法 图形学
Deep learning based multi-scale channel compression feature surface defect detection system
简述:首先应用背景分割和模板匹配技术来定义覆盖目标工件的ROI区域。提取的感兴趣区域被均匀地裁剪成若干个图像块,每个块被送到基于CNN的模型,以分类杂乱背景中不同大小的表面缺陷。最后,对空间上相邻且具有相同类别标签的图像块进行合并,以生成各种表面缺陷的识别图。
153 0
《Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation》电子版地址
Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation
83 0
《Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation》电子版地址
|
数据挖掘
Re15:读论文 LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
Re15:读论文 LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
Re15:读论文 LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
|
计算机视觉
ITK 基础(二) — 图像分割 General Threshold
上篇文章介绍了 ITK 中的二值化分割,最终得到的是 二值图像(图像中只有两种像素值) 但有时我们会遇到另外一种需求,只改变某一阈值范围的像素值,其他部分保留;这时二值化分割已经满足不了我们的基本需求了,需要寻求另外一种方法。 本篇教程介绍 ITK 中的 General Threshold ,是二值化的改进版,可以只改变某一范围内的像素值,并且其它范围内像素值得到保留。
ITK 基础(二) — 图像分割 General Threshold
|
机器学习/深度学习 算法 数据挖掘
Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet C》的翻译与解读
Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》的翻译与解读