❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎧 “告别手写笔记!WhisperChain 实时语音转文字,自动优化文本,效率翻倍!”
大家好,我是蚝油菜花。你是否也遇到过这些场景:
- 👉 会议中手忙脚乱地记录,结果漏掉了关键信息?
- 👉 写作时灵感迸发,却来不及打字记录?
- 👉 远程协作时,语音内容难以快速整理和分享?
今天要拆解的 WhisperChain ,用AI重新定义语音生产力!这个基于 Whisper.cpp 和 LangChain 的开源神器,能实时把语音变成"编辑部级"文本:
- ✅ 智能消噪:自动过滤200+种口头禅,连方言"额滴神"都能识别
- ✅ 语义抛光:把碎碎念整理成会议纪要,支持中英日三语纠错
- ✅ 无缝衔接:全局热键3秒启动,处理完的文本直接进剪贴板
接下来,我们将深入探讨 WhisperChain 的核心功能、技术原理以及如何快速上手使用。准备好迎接语音记录的新时代了吗?
🚀 快速阅读
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具。
- 核心功能:实时语音转文字、文本清理与优化、全局热键支持、自动剪贴板集成。
- 技术原理:基于 Whisper.cpp 实现语音识别,LangChain 进行文本优化,FastAPI 和 Streamlit 提供后端和前端支持。
WhisperChain 是什么
WhisperChain 是一款开源的语音识别工具,旨在通过语音输入提升工作效率。它基于 Whisper.cpp 实现实时语音识别,将语音转换为文本,并利用 LangChain 对文本进行清理和优化,去除填充词、编辑并精炼内容。
WhisperChain 支持全局快捷键,方便用户随时启动语音输入,自动将清理后的文本复制到剪贴板,方便粘贴使用。此外,它还提供 Streamlit Web UI 和 FastAPI 服务器架构,支持多种配置和扩展功能,适用于需要高效语音记录和文本优化的用户。
WhisperChain 的主要功能
- 实时语音识别:语音实时转换为文本。
- 文本清理与优化:对识别后的文本进行处理,去除填充词(如“嗯”“啊”)、语法优化和内容精炼。
- 全局热键支持:自定义的全局热键(如
<Ctrl>+<Alt>+R
)快速启动语音输入,方便快捷。 - 自动剪贴板集成:识别清理后的文本自动复制到剪贴板,用户直接粘贴到任何需要的地方。
- Streamlit Web UI:提供图形化界面,用户基于网页与工具交互,查看历史记录或重新编辑文本。
- 灵活的配置选项:支持基于配置文件或命令行参数自定义设置,如选择不同的语音识别模型、端口等。
WhisperChain 的技术原理
- Whisper.cpp:Whisper.cpp 是开源的语音识别引擎,基于 OpenAI 的 Whisper 模型。将语音信号转换为文本,支持多种语言和方言。提供高效的实时语音识别能力,是 WhisperChain 的核心组件之一。
- LangChain:LangChain 是用于文本处理和优化的工具。对识别后的文本进行清理,去除不必要的填充词、重复内容,优化语法和表达。根据上下文对文本进行语义优化,让最终生成的文本更加流畅和自然。
- FastAPI 服务器与 WebSocket:WhisperChain 用 FastAPI 构建后端服务器,基于 WebSocket 实现实时通信。语音数据基于 WebSocket 传输到服务器,服务器调用 Whisper.cpp 进行语音识别,用 LangChain 处理文本。处理后的文本最终返回给客户端,实现高效的数据处理和传输。
- Streamlit Web UI:Streamlit 是用于快速开发 Web 应用的框架。WhisperChain 用 Streamlit 构建图形化界面,用户基于网页与工具交互,方便查看历史记录、重新编辑文本或调整设置。
- 全局热键与剪贴板集成:基于系统级的全局热键监听,用户随时启动语音输入。处理后的文本自动复制到系统剪贴板,方便用户在其他应用中直接粘贴使用。
如何运行 WhisperChain
1. 安装系统依赖(MacOS)
# 使用 Homebrew 安装 ffmpeg 和 portaudio
brew install ffmpeg portaudio
2. 安装 WhisperChain
pip install whisperchain
3. 配置
WhisperChain 会从以下位置查找配置文件:
- 环境变量
- 当前目录下的
.env
文件 ~/.whisperchain/.env
文件
首次运行时,如果没有找到配置文件,系统会提示你输入 OpenAI API 密钥。密钥将保存在 ~/.whisperchain/.env
中以供后续使用。
你也可以手动设置 OpenAI API 密钥:
# 方法 1:环境变量
export OPENAI_API_KEY=your-api-key-here
# 方法 2:在当前目录创建 .env 文件
echo "OPENAI_API_KEY=your-api-key-here" > .env
# 方法 3:创建全局配置文件
mkdir -p ~/.whisperchain
echo "OPENAI_API_KEY=your-api-key-here" > ~/.whisperchain/.env
4. 使用
启动应用
# 使用默认设置运行
whisperchain
# 使用自定义配置文件运行
whisperchain --config config.json
# 覆盖特定设置
whisperchain --port 8080 --hotkey "<ctrl>+<alt>+t" --model "large" --debug
使用全局热键
- 默认热键为
<ctrl>+<alt>+r
(MacOS 为<ctrl>+<option>+r
)。 - 按下并按住热键开始录音。
- 说出你的文本。
- 释放热键停止录音。
- 清理后的文本将自动复制到剪贴板。
- 使用
Ctrl+V
粘贴文本。
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦