太厉害了!98 秒内可以在本地转录 2.5 小时的音频!

简介: 太厉害了!98 秒内可以在本地转录 2.5 小时的音频!

本文小编给大家推荐一款名为 insanely-fast-whisper 的音频转录工具,近期在 Github 上超级火🔥🔥🔥。

insanely-fast-whisper 是一款功能强大的音频转录工具,支持自动转录和说话人分割功能。具备高速转录能力,适用于大量音频处理,提高工作效率。工具核心优势在于速度,能在短时间内完成大量音频转录,节省时间和劳动力。


它底层使用 OpenAI's Whisper Large v3,适用于在 Mac 或 Nvidia GPU 上运行,并使用 Whisper + Pyannote 库加速转录和语音分段。


上线没多久,Star已达3.9K!


项目地址:http://github.com/Vaibhavs10/insanely-fast-whisper

核心特性:


1、支持说话人分割和区分,识别不同说话人,有助于分析和整理多人音频

2、自动转录,可快速将长音频文件转录为文本,无需手动逐字逐句

3、能在98秒内转录2.5小时的音频


以下是官方说明中在 Nvidia A100 - 80GB 上运行的一些基准测试:


安装使用


使用Python pip 命令可直接安装

pip install insanely-fast-whisper

执行下面命令运行:

insanely-fast-whisper --file-name <FILE NAME or URL>--batch-size 2 --device-id mps --hf_token<HF TOKEN>

注意:如果您在 macOS 上运行,还需要添加--device-id mps标志。


使用过程中常见问题


1、如何正确安装 flash-attn 使其与 insanely-fast-whisper 一起使用?

确保通过安装它pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation


2、如何解决AssertionError: Torch not compiled with CUDA enabled Windows 上的错误?

这个问题的根本原因仍然未知,但是,您可以通过在 virtualenv 中手动安装 torch 来解决此问题,例如python -m pip install torch torchvision torchaudio --index-url


3、如何避免 Mac 上出现内存不足 (OOM) 异常?

mps后端没有像 CUDA 那样优化,因此更需要内存。通常,您可以--batch-size 4毫无问题地运行(应使用大约 12GB GPU VRAM)。别忘了设置--device mps.

相关文章
|
7月前
|
算法
音频作曲算法大全
音频作曲算法大全
60 0
|
人工智能 JSON 安全
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么
165 0
|
机器学习/深度学习 人工智能 算法
怎么把一首歌的伴奏提取出来?
怎么把一首歌的伴奏提取出来?
242 0
|
机器学习/深度学习 自然语言处理 数据可视化
从视频到音频:使用VIT进行音频分类
在本文中,我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。
284 0
从视频到音频:使用VIT进行音频分类
|
Java API 语音技术
使用FFmpeg进行视频抽取音频,之后进行语音识别转为文字
使用FFmpeg进行视频抽取音频,之后进行语音识别转为文字
655 0
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(一)
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(一)
378 0
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(一)
|
算法
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(二)
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(二)
433 0
【音频处理】Melodyne 音高调整 ( 打开音频文件 | 选择音高编辑工具 | 样本音高信息 | 音高自动调整 )(二)
|
编解码 算法 数据可视化
实现视频和音频的零延迟是标准的零和博弈
作为实时音视频行业,我们对为什么不能零延迟推送视频提出很多理由,其中主要集中在网络容量或间歇性,扩展低延迟解决方案的成本,甚至局限性的现成处理器实时处理4K Ultra HD或高动态范围(HDR)内容方面。本文将从根本上分析涉及编解码器本身以及围绕可伸缩流视频出现的打包和分段问题。 
458 0
实现视频和音频的零延迟是标准的零和博弈