开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好

简介: 开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好

文章来自 阿里语音AI公众号


深受以上烦恼缠身的剪辑星人FunClip绝对是你的好帮手!由阿里巴巴通义实验室语音团队开源的自动化视频剪辑工具FunClip在近期迎来了重大更新,在打磨语音识别、视频自动化剪辑基础功能之上进一步集成了大语言模型的能力,支持用户在上传视频、进行音轨的语音识别之后,通过我们提供的大语言模型调用接口,根据自己设置的prompt对视频的SRT字幕进行分析与精选,并根据LLM推理结果进行智能剪辑。👉FunClip基础功能回顾FunClip项目地址:https://github.com/alibaba-damo-academy/FunClipFunASR项目地址:https://github.com/alibaba-damo-academy/FunASR通过Modelscope创空间体验FunClip:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary

,时长02:31

(两分钟快速功能演示)


FunClip的基础功能

FunClip是一款基于Gradio构建的完全开源、本地部署、精准裁剪的视频剪辑工具。通过调用阿里巴巴通义实验室开源的FunASR工具包与Paraformer系列模型,FunClip首先对视频的音轨进行精确的语音识别,识别过程支持热词定制化并且能够一体化的预测识别结果的时间戳。随后,基于识别结果、时间戳与标点模型的切句,FunClip能够自动生成视频的SRT字幕。如果需要区分说话人,那么FunClip也会为字幕中的每一句标注说话人ID信息。随后在裁剪阶段,用户可以选择文本段落中任意的片段,或者选择想要裁剪出的说话人的ID,复制到相应位置,点击裁剪即可获得需要的视频片段。FunClip支持在裁剪阶段自动合成字幕、配置起止位置的时间偏移,配置字幕的颜色与尺寸等。不久之前,FunClip升级到v1.1版本,主要进行了如下更新:

  • 支持配置输出文件目录,保存ASR中间结果与视频裁剪中间文件;
  • 易用性升级,视频与音频裁剪功能在同一页,按钮位置调整;
  • 修复了由于FunASR接口升级引入的bug,该bug曾导致一些严重的剪辑错误;
  • 支持为每一个段落配置不同的起止时间偏移;

(FunClip v1.1.0版本界面与使用方法)

FunClip2.0:大语言模型智能剪辑

在大语言模型日益火爆的今天,我们希望能够借助LLM的理解能力为视频剪辑增加更多的智能元素,让AI更好地为大家所用。FunClip在今天开源了2.0版本,开放了基于大语言模型的智能剪辑功能。首先,我们集成了包括通义实验室Qwen系列大模型,OpenAI的GPT系列大模型在内的多种大模型调用方式,用户首先需要选择模型并且配置对应的API Key。在进行视频的识别、获取到SRT字幕之后,点击LLM推理按钮,FunClip会自动组合System Prompt,User Prompt与视频SRT字幕,根据对指令的理解截取字幕中的对应片段。例如,我们可以让大模型完成这样的功能:

  1. 裁剪出视频中的精彩片段;
  2. 裁剪出视频中与“美食”相关的片段;
  3. 裁剪出视频中使用了比喻与排比修辞手法的片段;

以上功能只需要在prompt中输入,借助大模型的理解能力,帮助用户提高视频剪辑的效率。更多的prompt的配置与使用方法也欢迎大家在讨论区交流:)下一步,点击LLM智能裁剪,FunClip会匹配LLM输出结果中的时间戳部分,对原始的视频进行裁剪。这个过程中同样支持为视频自动添加字幕,以及对字幕进行个性化配置。

FunClip基于LLM智能剪辑的使用方法

相关文章
|
7天前
|
存储 人工智能 API
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。
413 13
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
|
9天前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
209 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
16天前
|
监控 jenkins 测试技术
Ansible与Jenkins:自动化工具的对比
Ansible和Jenkins是自动化领域的两大巨头。Ansible专注于配置管理和任务自动化,采用无代理架构,使用YAML定义配置,具有幂等性和可扩展性。Jenkins则擅长持续集成和持续交付(CI/CD),支持丰富的插件生态系统,适用于自动化构建、测试和部署。两者各有优势,Ansible适合配置管理与大规模部署,Jenkins则在CI/CD方面表现出色。结合使用可创建更强大的自动化工作流,提升团队生产力和软件质量。选择工具时应根据具体需求决定。
|
2月前
|
人工智能 自然语言处理 API
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。
582 16
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
|
2月前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
473 10
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
2月前
|
弹性计算 运维 监控
自动化AutoTalk第十一期-应知必会的自动化工具之阿里云配额中心
本次分享主题为“应知必会的自动化工具之阿里云配额中心”,课程围绕三个方面展开:1) 认识配额及其作用;2) 配额管理的意义与方法;3) 阿里云配额中心的功能和使用场景。通过学习,了解如何有效管理和监控配额,避免资源限制影响业务,并实现自动化集成,提升运维效率。
55 10
|
2月前
|
JavaScript Java 开发工具
AutoTalk第十三期-应知必会的自动化工具-阿里云SDK支持策略(一)
AutoTalk第十三期探讨阿里云SDK支持策略,涵盖四大方面:发布策略、版本规范、更新策略及停止支持策略。重点介绍SDK的及时性、完整性、测试覆盖度和版本命名规范;并以Python部分语言版本停止支持为案例,帮助开发者了解维护策略,确保平稳过渡到新版本。
|
2月前
|
算法 安全 Java
自动化AutoTalk第十期:应知必会的自动化工具-阿里云SDK
本期《自动化AutoTalk》第十期聚焦应知必会的自动化工具——阿里云SDK。主要内容分为三部分:1. 阿里云SDK概述,介绍其支持的300多款云产品和8种主流编程语言;2. 快速生成SDK示例,以Java语言为例展示如何通过OpenAPI门户快速生成并下载SDK工程;3. 进阶特性介绍,涵盖签名算法、Endpoint配置、代理设置、HTTPS请求配置、超时机制及异常处理等重要功能。通过这些内容,帮助开发者更高效、安全地使用阿里云SDK。
|
5月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
113 4
|
13天前
|
机器学习/深度学习 人工智能 运维
基于AI的自动化服务器管理:解锁运维的未来
基于AI的自动化服务器管理:解锁运维的未来
64 0

热门文章

最新文章