文档备案控制台

开发者社区 ModelScope模型即服务语音文章正文

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

2025-01-21 4962

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术核心：百聆结合语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现高效语音对话。
功能亮点：支持语音输入、智能对话生成、语音输出、打断功能、记忆功能、工具调用和任务管理。
应用场景：适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助工具和办公辅助应用。

正文（附运行示例）

百聆是什么

bailing

百聆（Bailing）是一款开源的语音对话助手，基于语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，能够与用户进行自然的语音对话。百聆的端到端时延低至800ms，无需GPU即可运行，适用于各种边缘设备和低资源环境。

bailing - flowchart

百聆通过模块化设计，支持记忆功能、工具调用和任务管理，提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果，适用于智能家居、个人助理、车载系统等多种场景。

百聆的主要功能

语音输入与识别：准确地将用户的语音输入转换为文本，为后续的对话处理提供基础。
语音活动检测：过滤掉无效的音频片段，只处理有效的语音部分，提高识别效率和准确性。
智能对话生成：基于大语言模型（LLM），生成自然、流畅且富有逻辑的文本回复。
语音输出与合成：将生成的文本回复转换为自然、逼真的语音，播放给用户。
支持打断：识别用户的关键字和语音打断行为，及时响应用户的即时反馈和控制指令。
记忆功能：记忆用户的偏好和历史对话，提供个性化的互动体验。
工具调用：支持集成外部工具，用户可通过语音指令直接请求信息或执行操作。
任务管理：高效管理用户任务，包括跟踪任务进度、设置提醒及提供动态更新。

百聆的技术原理

语音识别（ASR）：基于FunASR技术，将语音信号转换为文本数据，涉及语音信号的采集、预处理、特征提取及模式匹配。
语音活动检测（VAD）：基于silero-vad技术，实时监测和分析语音信号，判断是否包含有效的语音活动。
大语言模型（LLM）：使用deepseek作为核心模型，处理ASR输出的文本，生成自然、流畅的回复。
语音合成（TTS）：通过edge-tts等技术，将LLM生成的文本回复转换为语音信号，模拟人类的语音发音特点。

如何运行百聆

1. 克隆项目仓库

git clone https://github.com/wwbin2017/bailing.git
cd bailing

2. 安装依赖

pip install -r requirements.txt

3. 配置环境变量

打开 config/config.yaml 文件，配置ASR、LLM等相关参数。
下载 SenseVoiceSmall 模型到 models/SenseVoiceSmall 目录。
获取 deepseek 的 api_key 并配置到项目中。

4. 启动服务

cd server
python server.py  # 启动后端服务

5. 运行主程序

python main.py

启动后，系统会等待语音输入，通过FunASR将语音转为文本，silero-vad进行语音活动检测，deepseek生成回复，最后通过edge-tts将文本转换为语音输出。

资源

GitHub 仓库：https://github.com/wwbin2017/bailing

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

智能语音交互

语音技术

人工智能

API

智能硬件

自然语言处理

关键词：

集成ai

API开源

AI延迟

deepseek AI

API ai

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

蚝油菜花

目录

相关文章

阿里云安全_

|

9月前

|

云安全人工智能安全

Dify平台集成阿里云AI安全护栏，构建AI Runtime安全防线

阿里云 AI 安全护栏加入Dify平台，打造可信赖的 AI

阿里云安全_

4046 166 172

欲揽西江月

|

10月前

|

人工智能自然语言处理 API

快速集成GPT-4o：下一代多模态AI实战指南

快速集成GPT-4o：下一代多模态AI实战指南

欲揽西江月

687 101 101

api-v-2467742810

|

监控前端开发安全

如何集成第三方支付API到电商网站

在电商网站中，集成第三方支付API是确保交易安全、提升用户体验的关键步骤。本文详细介绍了从选择支付提供商到上线监控的全流程，涵盖代码示例与实用建议，助您高效实现支付功能。

api-v-2467742810

690 0 0

小华同学ai

|

9月前

|

人工智能 API 开发工具

还在被复杂 API 调试工具折磨？这款开源神器救我出坑！

小华推荐开源API调试神器Yaak：离线优先、支持多协议、Git集成，告别Postman卡顿烦恼。界面清爽，一键导入，免费开源获8.5k星，10万+技术人已入坑！

小华同学ai

487 7 7

modelscope

|

人工智能文字识别安全

趣丸千音MCP首发上线魔搭社区，多重技术引擎，解锁AI语音无限可能

近日，趣丸千音（All Voice Lab）MCP正式首发上线魔搭社区。用户只需简单文本输入，即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。

modelscope

1397 32 34

尹天仇6

|

人工智能 Android开发 iOS开发

安卓版快捷指令，加了AI语音可以一句话操作v0.2.7

Shortcuts for Android（SFA）是一款安卓自动化工具，支持语音创建快捷指令，实现听歌、导航、发消息等操作。操作简单，提升效率，快来体验语音控制的便捷！

尹天仇6

1435 0 0

安卓版快捷指令，加了AI语音可以一句话操作v0.2.7

suprai

|

人工智能自然语言处理语音技术

深度解析：AI语音客服系统如何重塑客户服务体验与主流解决方案探析

在数字化浪潮下，AI语音客服凭借高效、便捷、24小时在线的优势，成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案，如阿里云通义晓蜜、合力亿捷等，助力企业智能化升级。

suprai

712 1 1

石小石Orz

|

人工智能移动开发开发工具

H5录音、图文视频IndexDB储存最佳实践：用AI生成语音备忘录

随心记是一个由 AI 生成的网页备忘录，它支持语音录入（可下载）、图文视频记录。最重要的是，它支持离线使用，所有数据都储存在浏览器中，不依赖后端，刷新页面数据也不会丢失！

石小石Orz

498 0 0

H5录音、图文视频IndexDB储存最佳实践：用AI生成语音备忘录

aliyun7374574637-16425

|

存储人工智能 Java

Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)

本项目基于Spring Boot 3.5.3与Java 17，集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能，适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。

aliyun7374574637-16425

1545 0 0

ModelScope模型即服务

语音

热门文章

最新文章

docker安装部署FunASR

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

docker安装部署FunASR

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

相关课程

更多

阿里云DAS-您的专属AI专家，引领数据库自治驾驶

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

云原生AI套件：一键训练大模型及部署GPU共享推理服务

AI情绪鼓励师模型微调实操教学

事件总线EventBridge生态集成课程

消息队列 RocketMQ 消息集成

相关电子书

更多

阿里邮箱—安全高效集成

集成智能接入网关APP：优化企业级移动办公网络

云效助力企业集成安全到DevOps中

相关实验场景

更多

以电商场景为例搭建AI语义搜索应用

流水线运行出错排查难？AI帮您智能排查

SAE 极速部署专属AI证件照神器

基于Assistant Api的旅游助手

快速体验智能体API应用

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！