本文小编给大家推荐一款名为 insanely-fast-whisper 的音频转录工具,近期在 Github 上超级火🔥🔥🔥。
insanely-fast-whisper
是一款功能强大的音频转录工具,支持自动转录和说话人分割功能。具备高速转录能力,适用于大量音频处理,提高工作效率。工具核心优势在于速度,能在短时间内完成大量音频转录,节省时间和劳动力。
它底层使用 OpenAI's Whisper Large v3,适用于在 Mac 或 Nvidia GPU 上运行,并使用 Whisper + Pyannote 库加速转录和语音分段。
上线没多久,Star已达3.9K!
项目地址:http://github.com/Vaibhavs10/insanely-fast-whisper
核心特性:
1、支持说话人分割和区分,识别不同说话人,有助于分析和整理多人音频
2、自动转录,可快速将长音频文件转录为文本,无需手动逐字逐句
3、能在98秒内转录2.5小时的音频
以下是官方说明中在 Nvidia A100 - 80GB 上运行的一些基准测试:
安装使用
使用Python pip 命令可直接安装
pip install insanely-fast-whisper
执行下面命令运行:
insanely-fast-whisper --file-name <FILE NAME or URL>--batch-size 2 --device-id mps --hf_token<HF TOKEN>
注意:如果您在 macOS 上运行,还需要添加--device-id mps标志。
使用过程中常见问题
1、如何正确安装 flash-attn
使其与 insanely-fast-whisper
一起使用?
确保通过安装它pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation
。
2、如何解决AssertionError: Torch not compiled with CUDA enabled Windows 上的错误?
这个问题的根本原因仍然未知,但是,您可以通过在 virtualenv 中手动安装 torch 来解决此问题,例如python -m pip install torch torchvision torchaudio --index-url
3、如何避免 Mac 上出现内存不足 (OOM) 异常?
mps后端没有像 CUDA 那样优化,因此更需要内存。通常,您可以--batch-size 4毫无问题地运行(应使用大约 12GB GPU VRAM)。别忘了设置--device mps.