分享一款刚开源上线3天的音乐人声分离工具!无需联网!页面化操作!

简介: 分享一款刚开源上线3天的音乐人声分离工具!无需联网!页面化操作!

前言


人声分离 是一项重要的音频处理技术,它可以将混合音频中的 人声和背景音乐 分离出来,为音频处理和后期制作提供了便利。


随着人声分离技术的发展,越来越多的开源工具被开发出来,为音频处理领域带来了新的发展机遇。小编之前也体验过不少人声分离 开源项目工具。分离效果有好的,有差的,参差不齐。


今天又逛到一块刚刚开源的人声分离工具 vocal-separate,看小样示例还不错,而且部署也比其他GPT产品简单些,还有编译好的Windows版工具可直接使用。


项目简介


vocal-separate 是一款极简的人声和背景音乐分离工具。可直接本地网页化操作,无需连接外网,使用了 2stems/4stems/5stems 模型。


项目地址:https://github.com/jianchang512/vocal-separate


支持视频(mp4/mov/mkv/avi/mpeg)和音频(mp3/wav)格式。


使用方法


1、预编译Win版


  • 直接在项目Release页面下载预编译文件

  • 解压到本地某目录下,如:E:\vocal-separate
  • 双击 start.exe ,等待自动打开浏览器窗口

  • 点击页面中的上传区域,在弹窗中找到想分离的音视频文件,或直接拖拽音频文件到上传区域,然后点击“立即分离”,稍等片刻,底部会显示每个分离文件以及播放控件,点击播放。

  • 如果电脑拥有英伟达GPU,并正确配置了CUDA环境,将自动使用CUDA加速


2、源码部署(Linux/Mac/Window)


要求 python 3.9->3.11

1)拉取 vocal-separate 拉取源码到指定目录

git clone git@github.com:jianchang512/vocal-separate.git

2)创建Python虚拟环境(根据本地安装的虚拟env软件来)


3)激活环境

# win下命令 
%cd%/venv/scripts/activate
# linux和Mac下命令 
source ./venv/bin/activate

4)安装依赖

pip install -r requirements.txt

5)ffmpeg工具准备

win下解压 ffmpeg.7z,将其中的ffmpeg.exe和ffprobe.exe放在项目目录下

linux和mac 到 ffmpeg官网下载对应版本ffmpeg,解压其中的ffmpeg和ffprobe二进制程序放到项目根目录下


6)下载模型压缩包

在项目根目录下的 pretrained_models 文件夹中解压,解压后,pretrained_models中将有3个文件夹,分别是2stems/3stems/5stems


7)执行 python start.py ,等待自动打开本地浏览器窗口。


网页打开后,跟Win编译版使用方法一样。


具体使用详情


将一首歌曲或者含有背景音乐的音视频文件,拖拽到本地网页中,即可将其中的人声和音乐声分离为单独的音频wav文件,可选单独分离“钢琴声”、“贝斯声”、“鼓声”等。


自动调用本地浏览器打开本地网页,模型已内置,无需连接外网下载。


只需点两下鼠标,一选择音视频文件,二启动处理。


总结


作者将相关资源包,部署依赖都说的非常详细,直接根据步骤一步步安装即可。针对单独的音乐原声分离效果还是Ok的。如果是视频、影视、音乐等混合,可能还不是特别完美,还有优化的空间。

相关文章
|
5月前
|
机器学习/深度学习 开发工具 对象存储
视觉智能平台常见问题之web端编辑器实现如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
5月前
|
编解码 小程序 IDE
【产品上新】小程序相机功能全面开放!
【产品上新】小程序相机功能全面开放!
96 0
|
10天前
|
Android开发 开发者
Android平台无纸化同屏如何实现实时录像功能
Android平台无纸化同屏,如果需要本地录像的话,实现难度不大,只要复用之前开发的录像模块的就可以,对我们来说,同屏采集这块,只是数据源不同而已,如果是自采集的其他数据,我们一样可以编码录像。
|
4月前
|
人工智能 vr&ar
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
|
5月前
|
机器学习/深度学习 人工智能 监控
视觉智能平台常见问题之体验产品的美颜测试关掉如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
Web App开发 开发工具 Android开发
Android平台不需要单独部署流媒体服务如何实现内网环境下一对一音视频互动
我们在做内网环境的一对一音视频互动的时候,遇到这样的技术诉求:如智能硬件场景下(比如操控智能硬件),纯内网环境,如何不要单独部署RTMP或类似流媒体服务,实现一对一音视频互动。
|
5月前
|
机器学习/深度学习 人工智能 算法
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。 言及背景音人声分离技术,就不能不提Spleeter,它是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。使用的是一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter泛用性高的原因之一,关于Spleeter,请移步:[人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)](https://v3u.cn/a_id_305),这里
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
|
5月前
微信小游戏制作工具中,如何跨场景进行交互
微信小游戏制作工具中,如何跨场景进行交互
80 1
|
11月前
堪比文件传输助手!解决文本、图片、视频、音乐跨设备同步难题!
一款比文件传输助手更好用的跨设备文件同步插件,支持剪藏和文件管理,效率翻倍!
|
编解码 NoSQL 关系型数据库
五脏俱全,搭建部署多人语音厅源码功能分析
首先,要搭建部署一个稳定成熟的多人语音厅源码,具体的实现方式可能因项目需求以及使用的工具而有所不同,下边来简单分析下。
五脏俱全,搭建部署多人语音厅源码功能分析
下一篇
无影云桌面