Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统

简介: Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ 「别让语音助手当复读机!Langchain+RAG让AI听懂潜台词」

大家好,我是蚝油菜花。这些语音交互的窒息操作你是否遭遇过——

  • 👉 问「帮我对比量子计算三大框架优缺点」,AI回答「已为您播放《三体》有声书」
  • 👉 需要同时查财报数据+写分析摘要,语音助手只会单线程挤牙膏式输出
  • 👉 部署企业知识库时,发现语音搜索准确率比抛硬币还随机...

今天要炸翻AI圈的 Oliva ,正在重定义语音智能!这个开源界的「最强大脑」:

  • ✅ 语音版Ctrl+F:对着空气说话直接穿透百万级数据库,结果秒出
  • ✅ 智能体特工队:一个问题拆给N个AI专家处理,复杂查询像流水线作业
  • ✅ 企业级耳语者:本地部署保障数据安全,支持API/文档/网页全接入

已有金融团队用它语音实时调取财报,制造厂靠多智能体排查故障——你的声音,就是打开数据宇宙的终极密钥!

🚀 快速阅读

Oliva是一个基于语音交互的检索增强生成(RAG)系统。

  1. 功能:支持实时语音搜索、多智能体协作和语义理解
  2. 技术:整合Deepgram语音识别、Qdrant向量数据库和Langchain多Agent框架

Oliva 是什么

oliva

Oliva 是开源的语音RAG助手,结合Langchain和Superlinked技术,基于语音驱动的RAG(检索增强生成)架构,帮助用户在Qdrant向量数据库中实时搜索信息。

用户基于自然语音提问,Oliva用语音转文本和实时语音通信技术,将语音指令转化为对数据库的查询,返回结构化结果。Oliva支持多智能体协作,将复杂问题拆解为多个子任务,由不同智能体处理。

Oliva 的主要功能

  • 实时语音搜索:用户基于语音提问,AI实时响应
  • 多智能体协作:将复杂问题拆解为多个子任务,不同智能体分别处理
  • 语义搜索:基于Qdrant向量数据库,理解语义,提供精准搜索结果
  • 灵活集成:支持接入本地文档、API数据源、在线网页等作为知识库

Oliva 的技术原理

  • 语音识别与合成:基于Deepgram提供的语音转文本服务,将用户的语音指令转换为文本
  • 向量数据库:基于Qdrant向量数据库存储和检索数据,支持高效相似性搜索
  • Langchain多智能体架构:构建多智能体系统,基于动态任务路由实现智能体协作
  • 检索增强生成(RAG):结合检索和生成技术,从数据库获取信息并生成自然语言回答
  • 实时通信:集成Livekit平台支持实时语音交互
  • 语义理解:使用NLP技术和向量嵌入实现精准语义搜索

如何运行 Oliva

1. 安装依赖

uv sync

2. 配置Livekit

创建Livekit账号并获取以下凭证:

LIVEKIT_URL=wss://your-project.livekit.cloud
LIVEKIT_API_KEY=secret
LIVEKIT_API_SECRET=********

3. 设置环境变量

cp .env.example .env

4. 运行Qdrant数据库

docker run -p 6333:6333 -p 6334:6334 \
    -e QDRANT__SERVICE__API_KEY=******** \
    -v "$(pwd)/qdrant_storage:/qdrant/storage:z" \
    qdrant/qdrant

5. 启动语音助手

make oliva-start

6. 访问前端

使用Agent playground连接 Livekit 项目与语音助手交互。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
10月前
|
人工智能 物联网 UED
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
721 13
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
|
10月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
338 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
9月前
|
数据采集 人工智能 数据处理
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。
1225 5
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
|
10月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
643 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
10月前
|
机器学习/深度学习 人工智能 Rust
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。
505 28
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
|
10月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1398 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
9月前
|
机器学习/深度学习 人工智能 编解码
Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选
ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型,支持多种犬种选择并适配智能家居设备,其核心技术基于深度神经网络训练。
1894 15
Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选
|
10月前
|
人工智能 API 语音技术
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
2905 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
4545 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。
1032 18
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定

热门文章

最新文章