开源音视频剪辑工具:FunASR-APP ClipVideo

简介: 开源音视频剪辑工具:FunASR-APP ClipVideo

视频剪辑是大家生活中经常使用的工具,现有的视频剪辑软件支持种类丰富的视频裁剪、编辑功能。对于一个长视频,剪辑出里面需要的视频片段,往往需要花费很长的时间来浏览视频,剪辑需要的音视频片段。

ClipVideo剪辑工具结合了达摩院语音实验室在Modelscope社区开源的语音识别相关能力,通过语音转文字,以及根据文字内容,快速裁剪出对应的视频片段,提升音视频剪辑的效率。

仅需通过上传视频、识别、复制所需文字片段、裁剪几个简单的步骤,用户可以快速方便的获取所需的视频片段,并且自动生成字幕。

ClipVideo的demo已经上线到Modelscope创空间👇:

https://modelscope.cn/studios/damo/funasr_app_clipvideo/summary

相应的工具包也在Github进行了开源👇:

https://github.com/alibaba-damo-academy/FunASR-APP


如何使用ClipVideo?


方法一: 通过Modelscope创空间,在线便捷体验ClipVideo的DEMO; 方法二:通过源代码将ClipVideo服务部署在本地。 用户可以通过上述两种方式使用基于Gradio交互的ClipVideo服务,其界面设置如下,按以下三个步骤可以快速获取根据文本截取的视频片段: (1)上传视频文件, 点击“识别”按钮进行识别; (2)复制识别结果中的文字段落至“待裁剪文本”处; (3)配置字幕设置(可选),点击“裁剪”或“裁剪并添加字幕”按钮。 对于有批量处理文件需求的用户,ClipVideo支持通过命令行的方式交互,详见Github。 图1 通过Gradio服务使用ClipVideo

ClipVideo背后的语音技术

ClipVideo方便准确的裁剪的背后是达摩院语音实验室自研的一系列语音相关模型,包括语音端点检测(Voice Activity Detection, VAD),语音识别(Automatic Speech Recognition, ASR),标点预测(Punctuation Restoration)及时间戳预测(Timestamp Prediction, TP)。ClipVideo按如图2所示的逻辑组成了完整的交互链路。图2 ClipVideo程序流程

为了准确而高效的识别(可能较长的)输入视频,ClipVideo调用了Paraformer-Large-长音频版识别模型,其链路中包含FSMN-VAD模型,支持时间戳预测的BiCIF-Paraformer-Large ASR模型以及CT-Transformer标点预测模型。其中BiCIF-Paraformer-Large ASR模型是达摩院新一代端到端ASR方案,兼具AED(attention-encoder-decoder)框架的离线ASR准确性与非自回归(non-autoregressive)方案的高效率,并且使用额外的CIF头在多倍帧率的情况下进行帧权重预测从而得到时间戳,省略了传统时间戳预测所需要的额外的hybrid force-alignment模型(图3)。图3 (a)Paraformer模型结构;(b)带有时间戳预测功能的BiCIF-Paraformer的Predictor结构


实验表明,Paraformer-Large模型的ASR准确率与时间戳预测准确率均为优异。具体参见FunASR论文:

https://arxiv.org/pdf/2305.11013.pdf上述全部模型均已在ModelScope和FunASR社区进行了开源:https://github.com/alibaba-damo-academy/FunASR上述全部模型均可以在modelscope上体验与下载:https://modelscope.cn/models?page=1&tasks=auto-speech-recognition&type=audio
Future Work在本文介绍的功能基础之上,下一步ClipVideo将集成说话人日志的功能,提供基于说话人识别结果的音视频裁剪功能,届时也将陆续上线于通义听悟等产品之中,供大家体验,敬请期待!

相关文章
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
538 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
14272 81
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
11月前
|
Java 数据安全/隐私保护 计算机视觉
银行转账虚拟生成器app,银行卡转账截图制作软件,java实现截图生成工具【仅供装逼娱乐用途】
本内容提供Java生成自定义图片的示例代码,涵盖基础图像创建、文本添加及保存功能,适合学习2D图形编程。包括教学示例图片生成、文本图层处理和数字水印技术实现方案。
|
10月前
|
存储 Android开发 数据安全/隐私保护
Thanox安卓系统增加工具下载,管理、阻止、限制后台每个APP运行情况
Thanox是一款Android系统管理工具,专注于权限、后台启动及运行管理。支持应用冻结、系统优化、UI自定义和模块管理,基于Xposed框架开发,安全可靠且开源免费,兼容Android 6.0及以上版本。
1204 4
|
11月前
|
存储 前端开发 JavaScript
仿真银行app下载安装, 银行卡虚拟余额制作app,用html+css+js实现逼真娱乐工具
这是一个简单的银行账户模拟器项目,用于学习前端开发基础。用户可进行存款、取款操作,所有数据存储于浏览器内存中
|
10月前
|
小程序 Java 关系型数据库
圈子系统公众号app小程序系统源码圈子系统带即时通讯 多级圈子系统源码 兴趣小组系统开源 私密圈子系统代码 会员制社区系统
本圈子系统解决方案提供即时通讯、多级圈子、兴趣小组、私密社区及会员制管理功能。支持开源与商业方案,推荐ThinkSNS+、EasyClub及OpenFire等系统,并提供前后端技术选型建议,助力快速搭建社交平台。
563 0
|
安全 数据安全/隐私保护 Android开发
【05】2025年1月首发完整版-篇幅较长-苹果app如何上架到app store完整流程·不借助第三方上架工具的情况下无需花钱但需仔细学习-优雅草央千澈详解关于APP签名以及分发-们最关心的一篇来了-IOS上架app
【05】2025年1月首发完整版-篇幅较长-苹果app如何上架到app store完整流程·不借助第三方上架工具的情况下无需花钱但需仔细学习-优雅草央千澈详解关于APP签名以及分发-们最关心的一篇来了-IOS上架app
3346 75
|
12月前
|
安全 搜索推荐 数据可视化
提升游戏APP留存与付费:高性价比工具与实践
2024年中国移动游戏市场收入达2843.3亿元,头部产品占据超七成份额。在存量市场竞争中,留住用户成为关键。Xinstall推出三大工具:Deeplink实现无缝跳转提升转化;安全加速优化启动体验;分享统计助力社交裂变,以低成本助力开发者提升留存与付费转化率。
378 3
|
11月前
|
BI 开发工具 开发者
App全渠道统计方案:如何用一个工具整合所有获客渠道数据?
还在为地推、社群、广告等不同获客渠道的数据分散而烦恼吗?本文将教您如何用一个工具整合所有渠道数据,实现精准的渠道归因与效果分析。
393 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek Artifacts:在线实时预览的前端 AI 编程工具,基于DeepSeek V3快速生成React App
DeepSeek Artifacts是Hugging Face推出的免费AI编程工具,基于DeepSeek V3,支持快速生成React和Tailwind CSS代码,适合快速原型开发和前端组件构建。
2819 39
DeepSeek Artifacts:在线实时预览的前端 AI 编程工具,基于DeepSeek V3快速生成React App

热门文章

最新文章