开源音视频剪辑工具:FunASR-APP ClipVideo

简介: 开源音视频剪辑工具:FunASR-APP ClipVideo

视频剪辑是大家生活中经常使用的工具,现有的视频剪辑软件支持种类丰富的视频裁剪、编辑功能。对于一个长视频,剪辑出里面需要的视频片段,往往需要花费很长的时间来浏览视频,剪辑需要的音视频片段。

ClipVideo剪辑工具结合了达摩院语音实验室在Modelscope社区开源的语音识别相关能力,通过语音转文字,以及根据文字内容,快速裁剪出对应的视频片段,提升音视频剪辑的效率。

仅需通过上传视频、识别、复制所需文字片段、裁剪几个简单的步骤,用户可以快速方便的获取所需的视频片段,并且自动生成字幕。

ClipVideo的demo已经上线到Modelscope创空间👇:

https://modelscope.cn/studios/damo/funasr_app_clipvideo/summary

相应的工具包也在Github进行了开源👇:

https://github.com/alibaba-damo-academy/FunASR-APP


如何使用ClipVideo?


方法一: 通过Modelscope创空间,在线便捷体验ClipVideo的DEMO; 方法二:通过源代码将ClipVideo服务部署在本地。 用户可以通过上述两种方式使用基于Gradio交互的ClipVideo服务,其界面设置如下,按以下三个步骤可以快速获取根据文本截取的视频片段: (1)上传视频文件, 点击“识别”按钮进行识别; (2)复制识别结果中的文字段落至“待裁剪文本”处; (3)配置字幕设置(可选),点击“裁剪”或“裁剪并添加字幕”按钮。 对于有批量处理文件需求的用户,ClipVideo支持通过命令行的方式交互,详见Github。 图1 通过Gradio服务使用ClipVideo

ClipVideo背后的语音技术

ClipVideo方便准确的裁剪的背后是达摩院语音实验室自研的一系列语音相关模型,包括语音端点检测(Voice Activity Detection, VAD),语音识别(Automatic Speech Recognition, ASR),标点预测(Punctuation Restoration)及时间戳预测(Timestamp Prediction, TP)。ClipVideo按如图2所示的逻辑组成了完整的交互链路。图2 ClipVideo程序流程

为了准确而高效的识别(可能较长的)输入视频,ClipVideo调用了Paraformer-Large-长音频版识别模型,其链路中包含FSMN-VAD模型,支持时间戳预测的BiCIF-Paraformer-Large ASR模型以及CT-Transformer标点预测模型。其中BiCIF-Paraformer-Large ASR模型是达摩院新一代端到端ASR方案,兼具AED(attention-encoder-decoder)框架的离线ASR准确性与非自回归(non-autoregressive)方案的高效率,并且使用额外的CIF头在多倍帧率的情况下进行帧权重预测从而得到时间戳,省略了传统时间戳预测所需要的额外的hybrid force-alignment模型(图3)。图3 (a)Paraformer模型结构;(b)带有时间戳预测功能的BiCIF-Paraformer的Predictor结构


实验表明,Paraformer-Large模型的ASR准确率与时间戳预测准确率均为优异。具体参见FunASR论文:

https://arxiv.org/pdf/2305.11013.pdf上述全部模型均已在ModelScope和FunASR社区进行了开源:https://github.com/alibaba-damo-academy/FunASR上述全部模型均可以在modelscope上体验与下载:https://modelscope.cn/models?page=1&tasks=auto-speech-recognition&type=audio
Future Work在本文介绍的功能基础之上,下一步ClipVideo将集成说话人日志的功能,提供基于说话人识别结果的音视频裁剪功能,届时也将陆续上线于通义听悟等产品之中,供大家体验,敬请期待!

相关文章
|
2月前
|
数据采集 JSON 监控
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
|
4月前
|
小程序 容器 JavaScript
探索uni-app:构建跨平台应用的神奇工具
探索uni-app:构建跨平台应用的神奇工具
|
6月前
|
存储 自然语言处理 C#
.NET开源、跨平台的本地日记APP - SwashbucklerDiary
.NET开源、跨平台的本地日记APP - SwashbucklerDiary
|
5月前
|
XML Java Android开发
Android App开发实战项目之模仿美图秀秀的抠图工具(附源码和演示视频 简单易懂 可直接使用)
Android App开发实战项目之模仿美图秀秀的抠图工具(附源码和演示视频 简单易懂 可直接使用)
57 0
|
5月前
|
JavaScript 前端开发 测试技术
移动端(APP)自动化脚本工具详细列举(autojs、easyclick、hamibot、ctrljs ...)
移动端(APP)自动化脚本工具详细列举(autojs、easyclick、hamibot、ctrljs ...)
773 0
|
5月前
|
XML Java 测试技术
『App自动化测试之Appium应用篇』| 元素定位工具Appium-Inspector从简介、安装、配置到使用的完整攻略
『App自动化测试之Appium应用篇』| 元素定位工具Appium-Inspector从简介、安装、配置到使用的完整攻略
205 3
|
9月前
|
供应链 前端开发 JavaScript
Java开源进销存系统源码,支持手机APP扫码进出库
管店云主要应用于零售门店、商贸批发、生产工厂等行业领域,并可定制开发以满足各行各业的特定需求。管店云包括电脑端和手机APP端,APP支持扫码进出库,操作非常方便。
162 0
Java开源进销存系统源码,支持手机APP扫码进出库
|
5月前
|
小程序 开发者
关于UniApp启动到微信小程序工具提示找不到app.json
关于UniApp启动到微信小程序工具提示找不到app.json
106 0
|
5月前
|
XML 测试技术 开发工具
『App自动化测试之Appium应用篇』| 元素定位工具uiautomatorviewer从简介、特点、启动到使用的完整过程
『App自动化测试之Appium应用篇』| 元素定位工具uiautomatorviewer从简介、特点、启动到使用的完整过程
97 4
|
29天前
|
SQL 前端开发 Java
又是大佬开源的一款自动预约i茅台APP的系统
这是一篇关于自动预约i茅台APP系统的介绍。该项目是一个开源系统,支持每日自动预约茅台,并且可以使用Docker一键部署。系统特性包括注册账号、添加用户、自动预约、选择预约门店、模拟位置等。提供了GitHub和B站上的视频教程,以及IDEA和Docker的启动指南。用户可以通过链接访问项目代码和文档,了解详细信息。