三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手

简介: RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持实时语音转文本,自动检测说话的开始与结束,具备唤醒词激活功能。
  2. 技术:采用 WebRTCVAD 和 SileroVAD 进行语音活动检测,Faster_Whisper 实现实时转录。
  3. 应用:适用于语音助手、实时字幕、会议记录等场景,支持多语言转录。

正文(附运行示例)

RealtimeSTT 是什么

realtimestt

RealtimeSTT 是一款开源的实时语音转文本库,专为低延迟应用设计。它具备强大的语音活动检测功能,能够自动识别说话的开始与结束,并通过 WebRTCVAD 和 SileroVAD 进行精准检测。

RealtimeSTT 还支持唤醒词激活功能,借助 Porcupine 或 OpenWakeWord 检测特定唤醒词来启动系统。核心转录功能由 Faster_Whisper 实现,能够将语音实时转换为文本,适用于语音助手、实时字幕等场景。

RealtimeSTT 的主要功能

  • 语音活动检测:精准识别说话时段,自动检测何时开始和停止说话,避免无效录音和转录。
  • 实时转录:使用 Faster_Whisper 进行即时转录,支持 GPU 加速,满足实时交互、会议记录等场景需求。
  • 语音唤醒功能:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,通过检测指定的唤醒词来激活系统。
  • 灵活的音频输入方式:支持麦克风实时录音或通过 feed_audio() 方法输入预先录制的音频块。
  • 多语言支持:具备多语言转录能力,能识别和转录多种语言的语音。

RealtimeSTT 的技术原理

  • 初步检测:使用 WebRTCVAD 进行初步的语音活动检测,快速识别音频流中的语音段和非语音段。
  • 准确验证:使用 SileroVAD 进行更准确的验证,基于深度学习模型精确区分语音与非语音时段。
  • 转录模型:采用 Faster_Whisper 进行即时转录,支持 GPU 加速,确保语音内容能实时转换为文本。
  • 唤醒词检测:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,识别特定唤醒词以激活系统。

如何运行 RealtimeSTT

1. 安装 RealtimeSTT

首先,通过 pip 安装 RealtimeSTT:

pip install RealtimeSTT

2. 基本使用示例

以下是一个简单的示例,展示如何使用 RealtimeSTT 进行实时语音转文本:

from RealtimeSTT import AudioToTextRecorder

def process_text(text):
    print(text)

if __name__ == '__main__':
    print("等待语音输入...")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)

3. 使用唤醒词

你可以通过设置 wake_words 参数来使用唤醒词功能:

from RealtimeSTT import AudioToTextRecorder

if __name__ == '__main__':
    recorder = AudioToTextRecorder(wake_words="jarvis")

    print('说 "Jarvis" 开始录音...')
    print(recorder.text())

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
12天前
|
人工智能 自然语言处理 IDE
6 款 AI 工具,助力写出更优质代码
6 款 AI 工具,助力写出更优质代码
130 3
6 款 AI 工具,助力写出更优质代码
|
4天前
|
人工智能 自然语言处理 测试技术
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。
99 19
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
|
2天前
|
存储 人工智能 自然语言处理
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
42 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
|
13天前
|
人工智能 自然语言处理 搜索推荐
浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界
随着大模型(LLMs)的发展,AI 写作取得了较大进展。然而,现有的方法大多依赖检索知识增强生成(RAG)和角色扮演等技术,其在信息的深度挖掘方面仍存在不足,较难突破已有知识边界,导致生成的内容缺乏深度和原创性。
|
7天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
415 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
1月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
110 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
1月前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
210 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
1天前
|
人工智能 自然语言处理 API
Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...
Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。
72 5
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
381 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
29天前
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
692 4
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

热门文章

最新文章