视频剪辑是大家生活中经常使用的工具,现有的视频剪辑软件支持种类丰富的视频裁剪、编辑功能。对于一个长视频,剪辑出里面需要的视频片段,往往需要花费很长的时间来浏览视频,剪辑需要的音视频片段。
ClipVideo剪辑工具结合了达摩院语音实验室在Modelscope社区开源的语音识别相关能力,通过语音转文字,以及根据文字内容,快速裁剪出对应的视频片段,提升音视频剪辑的效率。
仅需通过上传视频、识别、复制所需文字片段、裁剪几个简单的步骤,用户可以快速方便的获取所需的视频片段,并且自动生成字幕。
ClipVideo的demo已经上线到Modelscope创空间👇:
https://modelscope.cn/studios/damo/funasr_app_clipvideo/summary
相应的工具包也在Github进行了开源👇:
https://github.com/alibaba-damo-academy/FunASR-APP
▎如何使用ClipVideo?
▎ClipVideo背后的语音技术
ClipVideo方便准确的裁剪的背后是达摩院语音实验室自研的一系列语音相关模型,包括语音端点检测(Voice Activity Detection, VAD),语音识别(Automatic Speech Recognition, ASR),标点预测(Punctuation Restoration)及时间戳预测(Timestamp Prediction, TP)。ClipVideo按如图2所示的逻辑组成了完整的交互链路。图2 ClipVideo程序流程
为了准确而高效的识别(可能较长的)输入视频,ClipVideo调用了Paraformer-Large-长音频版识别模型,其链路中包含FSMN-VAD模型,支持时间戳预测的BiCIF-Paraformer-Large ASR模型以及CT-Transformer标点预测模型。其中BiCIF-Paraformer-Large ASR模型是达摩院新一代端到端ASR方案,兼具AED(attention-encoder-decoder)框架的离线ASR准确性与非自回归(non-autoregressive)方案的高效率,并且使用额外的CIF头在多倍帧率的情况下进行帧权重预测从而得到时间戳,省略了传统时间戳预测所需要的额外的hybrid force-alignment模型(图3)。图3 (a)Paraformer模型结构;(b)带有时间戳预测功能的BiCIF-Paraformer的Predictor结构
实验表明,Paraformer-Large模型的ASR准确率与时间戳预测准确率均为优异。具体参见FunASR论文:
https://arxiv.org/pdf/2305.11013.pdf上述全部模型均已在ModelScope和FunASR社区进行了开源:https://github.com/alibaba-damo-academy/FunASR上述全部模型均可以在modelscope上体验与下载:https://modelscope.cn/models?page=1&tasks=auto-speech-recognition&type=audio
▏Future Work在本文介绍的功能基础之上,下一步ClipVideo将集成说话人日志的功能,提供基于说话人识别结果的音视频裁剪功能,届时也将陆续上线于通义听悟等产品之中,供大家体验,敬请期待!