智能语音交互的搜索结果_第5页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型，能够将一种语言的语音实时翻译成另一种语言的语音或文本，支持高保真度和低延迟。

# 智能语音交互 # 人工智能 # Rust # PyTorch # 语音技术 # 算法框架/工具

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 物联网 # 测试技术 # 语音技术 # Python

TsingtaoAI

|

10月前

|

博文

基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能

本实训方案围绕「多模态输入 -> 感知与理解 -> 行动执行 -> 反馈学习」的闭环过程展开。通过多模态数据的融合（包括听觉、视觉、触觉等），并结合DeepSeek模型和深度学习算法，方案实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。

# 云解析DNS # 自然语言处理 # 智能语音交互 # 性能测试 # 资源编排 # 人工智能 # 自然语言处理 # 算法 # 机器人 # 计算机视觉

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 编解码 # 语音技术

游客6ujrlghjrosxa

|

11月前

|

问答

|

来自：阿里云百炼

通义千问语音识别大模型API 本地上传报错 InvalidParameter问题如何解决？

# 智能语音交互 # 智能语音交互 # 大模型服务平台百炼 # 语音技术 # API

TsingtaoAI

|

11月前

|

博文

具身智能与大模型融合创新技术实训研讨会成功举办

2025年1月16日-19日武汉，TsingtaoAI联合北京博创鑫鑫教育科技，举行“具身智能与大模型融合创新技术”实训研讨会，本次会议面向高校AI教师和企业AI工程师群体，通过3天的技术研修和实操教学，通过将 AI 大模型与具备3D视觉的机器人相结合，为学员实践演示，带领学员深入理解通用具身智能的原理和应用。

# GPU云服务器 # 自然语言处理 # 智能语音交互 # 云原生大数据计算服务 MaxCompute # 机器学习/深度学习 # 人工智能 # 算法 # 机器人 # 计算机视觉

阿里云开发者

|

11月前

|

博文

过年啦，做一个春节贺卡生成器

本文介绍了如何获取和利用现有的大模型资源，结合魔笔低代码，低成本、高效率地打造一个 AI 春节贺卡生成器。

# 函数计算 # 云数据库 RDS MySQL 版 # 智能语音交互 # 人工智能 # 前端开发 # 关系型数据库 # API # 语音技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 语音技术 # 智能硬件

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

GLM-Realtime：智谱推出多模态交互AI模型，融入清唱功能，支持视频和语音交互

GLM-Realtime 是智谱推出的端到端多模态模型，具备低延迟的视频理解与语音交互能力，支持清唱功能、2分钟内容记忆及灵活调用外部工具，适用于多种智能场景。

# 智能语音交互 # 智能语音交互 # 图像识别 # 人工智能 # 自然语言处理 # 搜索推荐 # UED # 智能硬件

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型，支持多语言和多语音风格生成，具备实时处理能力和低资源占用，适用于多种应用场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 并行计算 # API # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互