智能语音交互

首页 标签 智能语音交互
# 智能语音交互 #
关注
2665内容
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
|
6月前
|
《深度剖析:将先进语音识别技术融入鸿蒙系统AI应用》
语音识别技术是人工智能的重要组成部分,而鸿蒙系统凭借其分布式架构和强大能力,为语音技术的应用开辟了新方向。本文介绍了鸿蒙系统的智能语音交互架构,包括语音输入、识别、处理、合成及应用层,并探讨了如何选择适配的语音识别方案。同时,文章分析了语音数据优化、多语言支持、实时性等关键问题,以及如何将语音技术与智能家居、车载、办公等场景深度融合。随着技术进步,鸿蒙生态中的语音识别将带来更智能的用户体验。
免费试用