三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手

简介: RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持实时语音转文本,自动检测说话的开始与结束,具备唤醒词激活功能。
  2. 技术:采用 WebRTCVAD 和 SileroVAD 进行语音活动检测,Faster_Whisper 实现实时转录。
  3. 应用:适用于语音助手、实时字幕、会议记录等场景,支持多语言转录。

正文(附运行示例)

RealtimeSTT 是什么

realtimestt

RealtimeSTT 是一款开源的实时语音转文本库,专为低延迟应用设计。它具备强大的语音活动检测功能,能够自动识别说话的开始与结束,并通过 WebRTCVAD 和 SileroVAD 进行精准检测。

RealtimeSTT 还支持唤醒词激活功能,借助 Porcupine 或 OpenWakeWord 检测特定唤醒词来启动系统。核心转录功能由 Faster_Whisper 实现,能够将语音实时转换为文本,适用于语音助手、实时字幕等场景。

RealtimeSTT 的主要功能

  • 语音活动检测:精准识别说话时段,自动检测何时开始和停止说话,避免无效录音和转录。
  • 实时转录:使用 Faster_Whisper 进行即时转录,支持 GPU 加速,满足实时交互、会议记录等场景需求。
  • 语音唤醒功能:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,通过检测指定的唤醒词来激活系统。
  • 灵活的音频输入方式:支持麦克风实时录音或通过 feed_audio() 方法输入预先录制的音频块。
  • 多语言支持:具备多语言转录能力,能识别和转录多种语言的语音。

RealtimeSTT 的技术原理

  • 初步检测:使用 WebRTCVAD 进行初步的语音活动检测,快速识别音频流中的语音段和非语音段。
  • 准确验证:使用 SileroVAD 进行更准确的验证,基于深度学习模型精确区分语音与非语音时段。
  • 转录模型:采用 Faster_Whisper 进行即时转录,支持 GPU 加速,确保语音内容能实时转换为文本。
  • 唤醒词检测:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,识别特定唤醒词以激活系统。

如何运行 RealtimeSTT

1. 安装 RealtimeSTT

首先,通过 pip 安装 RealtimeSTT:

pip install RealtimeSTT
AI 代码解读

2. 基本使用示例

以下是一个简单的示例,展示如何使用 RealtimeSTT 进行实时语音转文本:

from RealtimeSTT import AudioToTextRecorder

def process_text(text):
    print(text)

if __name__ == '__main__':
    print("等待语音输入...")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)
AI 代码解读

3. 使用唤醒词

你可以通过设置 wake_words 参数来使用唤醒词功能:

from RealtimeSTT import AudioToTextRecorder

if __name__ == '__main__':
    recorder = AudioToTextRecorder(wake_words="jarvis")

    print('说 "Jarvis" 开始录音...')
    print(recorder.text())
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
19
18
2
339
分享
相关文章
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
127 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
本文分享了两种构建高质量AI代码数据集的解决方案。第一种是传统方式,结合动态住宅代理与手动处理,通过分页读取和数据清洗生成结构化数据;第二种是利用Web Scraper API工具,实现自定义配置、自动化抓取及云端存储。两种方法各具优势,适合不同需求和技术水平的团队。同时,文章还提供了专属优惠福利,助力提升数据采集效率,为AI大模型训练提供支持。
36 5
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Archon 是一个开源的 AI 智能体框架,能够自主生成代码并优化智能体性能,支持多智能体协作、领域知识集成和文档爬取等功能,适用于企业、教育、智能家居等多个领域。
116 10
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
610 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。
185 19
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
104 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
221 18
容器化AI模型的安全防护实战:代码示例与最佳实践
本文基于前文探讨的容器化AI模型安全威胁,通过代码示例展示如何在实际项目中实现多层次的安全防护措施。以一个基于TensorFlow的图像分类模型为例,介绍了输入验证、模型加密、API认证和日志记录的具体实现方法,并结合最佳实践,如使用安全容器镜像、限制权限、网络隔离等,帮助构建更安全的AI服务。
PySpur:零代码构建AI工作流!开源可视化拖拽平台,支持多模态与RAG技术
PySpur 是一款开源的轻量级可视化 AI 智能体工作流构建器,支持拖拽式界面,帮助用户快速构建、测试和迭代 AI 工作流,无需编写复杂代码。它支持多模态数据处理、RAG 技术、文件上传、结构化输出等功能,适合非技术背景的用户和开发者快速上手。
165 5
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!

热门文章

最新文章