三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手

简介: RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持实时语音转文本,自动检测说话的开始与结束,具备唤醒词激活功能。
  2. 技术:采用 WebRTCVAD 和 SileroVAD 进行语音活动检测,Faster_Whisper 实现实时转录。
  3. 应用:适用于语音助手、实时字幕、会议记录等场景,支持多语言转录。

正文(附运行示例)

RealtimeSTT 是什么

realtimestt

RealtimeSTT 是一款开源的实时语音转文本库,专为低延迟应用设计。它具备强大的语音活动检测功能,能够自动识别说话的开始与结束,并通过 WebRTCVAD 和 SileroVAD 进行精准检测。

RealtimeSTT 还支持唤醒词激活功能,借助 Porcupine 或 OpenWakeWord 检测特定唤醒词来启动系统。核心转录功能由 Faster_Whisper 实现,能够将语音实时转换为文本,适用于语音助手、实时字幕等场景。

RealtimeSTT 的主要功能

  • 语音活动检测:精准识别说话时段,自动检测何时开始和停止说话,避免无效录音和转录。
  • 实时转录:使用 Faster_Whisper 进行即时转录,支持 GPU 加速,满足实时交互、会议记录等场景需求。
  • 语音唤醒功能:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,通过检测指定的唤醒词来激活系统。
  • 灵活的音频输入方式:支持麦克风实时录音或通过 feed_audio() 方法输入预先录制的音频块。
  • 多语言支持:具备多语言转录能力,能识别和转录多种语言的语音。

RealtimeSTT 的技术原理

  • 初步检测:使用 WebRTCVAD 进行初步的语音活动检测,快速识别音频流中的语音段和非语音段。
  • 准确验证:使用 SileroVAD 进行更准确的验证,基于深度学习模型精确区分语音与非语音时段。
  • 转录模型:采用 Faster_Whisper 进行即时转录,支持 GPU 加速,确保语音内容能实时转换为文本。
  • 唤醒词检测:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,识别特定唤醒词以激活系统。

如何运行 RealtimeSTT

1. 安装 RealtimeSTT

首先,通过 pip 安装 RealtimeSTT:

pip install RealtimeSTT

2. 基本使用示例

以下是一个简单的示例,展示如何使用 RealtimeSTT 进行实时语音转文本:

from RealtimeSTT import AudioToTextRecorder

def process_text(text):
    print(text)

if __name__ == '__main__':
    print("等待语音输入...")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)

3. 使用唤醒词

你可以通过设置 wake_words 参数来使用唤醒词功能:

from RealtimeSTT import AudioToTextRecorder

if __name__ == '__main__':
    recorder = AudioToTextRecorder(wake_words="jarvis")

    print('说 "Jarvis" 开始录音...')
    print(recorder.text())

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
存储 关系型数据库 数据库
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
本文通过一个 Agentic RAG 应用的完整构建流程,展示了如何借助 RDS Supabase 快速搭建具备知识处理与智能决策能力的 AI 应用,展示从数据准备到应用部署的全流程,相较于传统开发模式效率大幅提升。
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
|
3月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
399 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
3月前
|
人工智能 程序员 PHP
Cursor AI来袭!编程从此不再繁琐,一键生成代码,效率提升千倍
AI攻破最后防线!连架构设计都能自动生成,中级程序员集体破防
502 10
Cursor AI来袭!编程从此不再繁琐,一键生成代码,效率提升千倍
|
2月前
|
人工智能 自然语言处理 搜索推荐
从输入指令到代码落地:Cline AI 源码浅析
文章揭示了Cline如何将简单的自然语言指令转化为具体的编程任务,并执行相应的代码修改或生成操作。
434 18
从输入指令到代码落地:Cline AI 源码浅析
|
3月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
437 32
|
2月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
189 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
3月前
|
人工智能 缓存 搜索推荐
手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流
本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。
466 18
|
2月前
|
人工智能 自然语言处理 语音技术
深度解析:AI语音客服系统如何重塑客户服务体验与主流解决方案探析
在数字化浪潮下,AI语音客服凭借高效、便捷、24小时在线的优势,成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案,如阿里云通义晓蜜、合力亿捷等,助力企业智能化升级。
238 1

热门文章

最新文章