百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

简介: 百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:百聆结合语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现高效语音对话。
  2. 功能亮点:支持语音输入、智能对话生成、语音输出、打断功能、记忆功能、工具调用和任务管理。
  3. 应用场景:适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助工具和办公辅助应用。

正文(附运行示例)

百聆是什么

bailing

百聆(Bailing)是一款开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,能够与用户进行自然的语音对话。百聆的端到端时延低至800ms,无需GPU即可运行,适用于各种边缘设备和低资源环境。

bailing - flowchart

百聆通过模块化设计,支持记忆功能、工具调用和任务管理,提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果,适用于智能家居、个人助理、车载系统等多种场景。

百聆的主要功能

  • 语音输入与识别:准确地将用户的语音输入转换为文本,为后续的对话处理提供基础。
  • 语音活动检测:过滤掉无效的音频片段,只处理有效的语音部分,提高识别效率和准确性。
  • 智能对话生成:基于大语言模型(LLM),生成自然、流畅且富有逻辑的文本回复。
  • 语音输出与合成:将生成的文本回复转换为自然、逼真的语音,播放给用户。
  • 支持打断:识别用户的关键字和语音打断行为,及时响应用户的即时反馈和控制指令。
  • 记忆功能:记忆用户的偏好和历史对话,提供个性化的互动体验。
  • 工具调用:支持集成外部工具,用户可通过语音指令直接请求信息或执行操作。
  • 任务管理:高效管理用户任务,包括跟踪任务进度、设置提醒及提供动态更新。

百聆的技术原理

  • 语音识别(ASR):基于FunASR技术,将语音信号转换为文本数据,涉及语音信号的采集、预处理、特征提取及模式匹配。
  • 语音活动检测(VAD):基于silero-vad技术,实时监测和分析语音信号,判断是否包含有效的语音活动。
  • 大语言模型(LLM):使用deepseek作为核心模型,处理ASR输出的文本,生成自然、流畅的回复。
  • 语音合成(TTS):通过edge-tts等技术,将LLM生成的文本回复转换为语音信号,模拟人类的语音发音特点。

如何运行百聆

1. 克隆项目仓库

git clone https://github.com/wwbin2017/bailing.git
cd bailing

2. 安装依赖

pip install -r requirements.txt

3. 配置环境变量

  • 打开 config/config.yaml 文件,配置ASR、LLM等相关参数。
  • 下载 SenseVoiceSmall 模型到 models/SenseVoiceSmall 目录。
  • 获取 deepseekapi_key 并配置到项目中。

4. 启动服务

cd server
python server.py  # 启动后端服务

5. 运行主程序

python main.py

启动后,系统会等待语音输入,通过FunASR将语音转为文本,silero-vad进行语音活动检测,deepseek生成回复,最后通过edge-tts将文本转换为语音输出。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
21天前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
426 1
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
27天前
|
人工智能 数据可视化 测试技术
AI 时代 API 自动化测试实战:Postman 断言的核心技巧与实战应用
AI 时代 API 自动化测试实战:Postman 断言的核心技巧与实战应用
281 11
|
1月前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
1月前
|
人工智能 安全 API
F5发布后量子API安全解决方案,以AI驱动全面防护应对量子计算威胁
F5发布后量子API安全解决方案,以AI驱动全面防护应对量子计算威胁
57 0
|
2月前
|
JSON API 数据格式
淘宝/天猫图片搜索API接口,json返回数据。
淘宝/天猫平台虽未开放直接的图片搜索API,但可通过阿里妈妈淘宝联盟或天猫开放平台接口实现类似功能。本文提供基于淘宝联盟的图片关联商品搜索Curl示例及JSON响应说明,适用于已获权限的开发者。如需更高精度搜索,可选用阿里云视觉智能API。
|
2月前
|
JSON API 数据安全/隐私保护
深度分析淘宝卖家订单详情API接口,用json返回数据
淘宝卖家订单详情API(taobao.trade.fullinfo.get)是淘宝开放平台提供的重要接口,用于获取单个订单的完整信息,包括订单状态、买家信息、商品明细、支付与物流信息等,支撑订单管理、ERP对接及售后处理。需通过appkey、appsecret和session认证,并遵守调用频率与数据权限限制。本文详解其使用方法并附Python调用示例。
|
22天前
|
数据可视化 测试技术 API
从接口性能到稳定性:这些API调试工具,让你的开发过程事半功倍
在软件开发中,接口调试与测试对接口性能、稳定性、准确性及团队协作至关重要。随着开发节奏加快,传统方式已难满足需求,专业API工具成为首选。本文介绍了Apifox、Postman、YApi、SoapUI、JMeter、Swagger等主流工具,对比其功能与适用场景,并推荐Apifox作为集成度高、支持中文、可视化强的一体化解决方案,助力提升API开发与测试效率。
|
2月前
|
JSON 算法 安全
淘宝商品详情API接口系列,json数据返回
淘宝开放平台提供了多种API接口用于获取商品详情信息,主要通过 淘宝开放平台(Taobao Open Platform, TOP) 的 taobao.tbk.item.info.get(淘宝客商品详情)或 taobao.item.get(标准商品API)等接口实现。以下是关键信息及JSON返回示例:
|
9天前
|
JSON 前端开发 API
如何调用体育数据足篮接口API
本文介绍如何调用体育数据API:首先选择可靠服务商并注册获取密钥,接着阅读文档了解基础URL、端点、参数及请求头,然后使用Python等语言发送请求、解析JSON数据,最后将数据应用于Web、App或分析场景,同时注意密钥安全、速率限制与错误处理。

热门文章

最新文章