智能语音交互的搜索结果_文章_第2页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

EmotiVoice是网易有道开源的多语言语音合成系统，支持中英文2000多种音色，通过提示词控制情感输出，提供Web界面和API接口，具备语音克隆等先进功能。

# 智能语音交互 # 人工智能 # API # 语音技术 # Docker # 容器

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手，通过实时语音交互在Qdrant向量数据库中进行语义搜索，支持多智能体协作处理复杂查询任务。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 数据库 # 决策智能

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型，结合视觉与语音输入，支持实时交互，适用于无障碍应用、智能家居控制等多个场景。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # Rust # PyTorch # 算法框架/工具

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

Soundwave 是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解，支持语音翻译、语音问答、情绪识别等功能，广泛应用于智能语音助手、语言学习等领域。

# 智能语音交互 # 人工智能 # 物联网 # UED # 异构计算 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

GPT-4o-mini-transcribe：OpenAI 推出实时语音秒转文本模型！高性价比每分钟0.003美元

GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，基于 GPT-4o-mini 架构，采用知识蒸馏技术，适合在资源受限的设备上运行，具有高效、实时和高性价比的特点。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

GPT-4o-Transcribe：OpenAI 推出高性能语音转文本模型！错误率暴降90%+方言通杀，Whisper当场退役

GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型，支持多语言和方言，适用于复杂场景如呼叫中心和会议记录，定价为每分钟 0.006 美元。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # API # 决策智能

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型，支持多语言、多情感控制，适用于智能客服、教育学习、智能助手等多种场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # 开发者

技术员阿伟

|

8月前

|

博文

《深度剖析：将先进语音识别技术融入鸿蒙系统AI应用》

语音识别技术是人工智能的重要组成部分，而鸿蒙系统凭借其分布式架构和强大能力，为语音技术的应用开辟了新方向。本文介绍了鸿蒙系统的智能语音交互架构，包括语音输入、识别、处理、合成及应用层，并探讨了如何选择适配的语音识别方案。同时，文章分析了语音数据优化、多语言支持、实时性等关键问题，以及如何将语音技术与智能家居、车载、办公等场景深度融合。随着技术进步，鸿蒙生态中的语音识别将带来更智能的用户体验。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 算法 # 语音技术 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具，涵盖多语言、多轮对话、副语言信息等多维度任务，帮助开发者全面评估模型性能。

# 智能语音交互 # 人工智能 # 自然语言处理 # 测试技术 # 语音技术 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具，能够实时将语音转换为文本，并自动清理和优化文本内容，适用于会议记录、写作辅助等多种场景。

# 智能语音交互 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互