三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

2025-01-17 3288

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RealtimeSTT 是一款开源的实时语音转文本库，支持低延迟应用，具备语音活动检测、唤醒词激活等功能，适用于语音助手、实时字幕等场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持实时语音转文本，自动检测说话的开始与结束，具备唤醒词激活功能。
技术：采用 WebRTCVAD 和 SileroVAD 进行语音活动检测，Faster_Whisper 实现实时转录。
应用：适用于语音助手、实时字幕、会议记录等场景，支持多语言转录。

正文（附运行示例）

RealtimeSTT 是什么

realtimestt

RealtimeSTT 是一款开源的实时语音转文本库，专为低延迟应用设计。它具备强大的语音活动检测功能，能够自动识别说话的开始与结束，并通过 WebRTCVAD 和 SileroVAD 进行精准检测。

RealtimeSTT 还支持唤醒词激活功能，借助 Porcupine 或 OpenWakeWord 检测特定唤醒词来启动系统。核心转录功能由 Faster_Whisper 实现，能够将语音实时转换为文本，适用于语音助手、实时字幕等场景。

RealtimeSTT 的主要功能

语音活动检测：精准识别说话时段，自动检测何时开始和停止说话，避免无效录音和转录。
实时转录：使用 Faster_Whisper 进行即时转录，支持 GPU 加速，满足实时交互、会议记录等场景需求。
语音唤醒功能：支持 Porcupine 或 OpenWakeWord 进行唤醒词检测，通过检测指定的唤醒词来激活系统。
灵活的音频输入方式：支持麦克风实时录音或通过 feed_audio() 方法输入预先录制的音频块。
多语言支持：具备多语言转录能力，能识别和转录多种语言的语音。

RealtimeSTT 的技术原理

初步检测：使用 WebRTCVAD 进行初步的语音活动检测，快速识别音频流中的语音段和非语音段。
准确验证：使用 SileroVAD 进行更准确的验证，基于深度学习模型精确区分语音与非语音时段。
转录模型：采用 Faster_Whisper 进行即时转录，支持 GPU 加速，确保语音内容能实时转换为文本。
唤醒词检测：支持 Porcupine 或 OpenWakeWord 进行唤醒词检测，识别特定唤醒词以激活系统。

如何运行 RealtimeSTT

1. 安装 RealtimeSTT

首先，通过 pip 安装 RealtimeSTT：

pip install RealtimeSTT

2. 基本使用示例

以下是一个简单的示例，展示如何使用 RealtimeSTT 进行实时语音转文本：

from RealtimeSTT import AudioToTextRecorder

def process_text(text):
    print(text)

if __name__ == '__main__':
    print("等待语音输入...")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)

3. 使用唤醒词

你可以通过设置 wake_words 参数来使用唤醒词功能：

from RealtimeSTT import AudioToTextRecorder

if __name__ == '__main__':
    recorder = AudioToTextRecorder(wake_words="jarvis")

    print('说 "Jarvis" 开始录音...')
    print(recorder.text())

资源

GitHub 仓库：https://github.com/KoljaB/RealtimeSTT
PyPI 页面：https://pypi.org/project/RealtimeSTT/

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

🚀 快速阅读

正文（附运行示例）

RealtimeSTT 是什么

RealtimeSTT 的主要功能

RealtimeSTT 的技术原理

如何运行 RealtimeSTT

1. 安装 RealtimeSTT

2. 基本使用示例

3. 使用唤醒词

资源

语音

热门文章

最新文章

相关课程

相关电子书

相关实验场景