智能语音交互的搜索结果_文章_第3页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Baichuan-Audio：端到端音频大模型，实时双语对话+语音生成

Baichuan-Audio 是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现高质量、可控的实时中英双语对话。

# 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术

探索云世界动手实践

|

9月前

|

博文

|

来自：大数据与机器学习

让小程序开口说话：DeepSeek语音交互开发指南

本文介绍如何利用DeepSeek语音交互技术构建智能语音助手，涵盖从安装声音采集设备、训练语言理解模型到设计语音控制界面的全过程。通过生活化场景，如深夜查找教程、旅行中寻找餐厅等，展示如何实现自然对话。此外，还深入探讨多轮对话记忆、情感计算及智能家居控制等进阶功能，帮助开发者创建会倾听、善思考的语音应用。最后，提供性能优化与安全防护建议，引领读者进入人机共生的新时代。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 小程序 # 安全 # 开发者 # 智能硬件

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

OSUM：告别ASR单一功能，西工大开源的语音大模型会「读心」！识别+情感分析+年龄预测等8大任务1个模型全搞定

OSUM 是西北工业大学开发的开源语音理解模型，支持语音识别、情感分析、说话者性别分类等多种任务，基于 ASR+X 训练策略，具有高效和泛化能力强的特点。

# 智能语音交互 # 人工智能 # 自然语言处理 # Linux # 语音技术 # 异构计算

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

王炸组合，阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

2025 年 2 月 18 号，阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。

# 智能语音交互 # 机器学习/深度学习 # 编解码 # 自然语言处理 # 测试技术 # 语音技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

# GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算 # 智能硬件

阿里云大数据Al技术

|

9月前

|

博文

|

来自：大数据与机器学习

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型，具有 300 亿个参数，能够生成高达 204 帧的视频；Step-Audio 则是行业内首个产品级的开源语音交互模型，通过结合 130B 参数的大语言模型，语音识别模型与语音合成模型，实现了端到端的文本、语音对话生成，能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署，本文将详细介绍具体操作步骤。

# 人工智能平台 PAI # 智能语音交互 # 人工智能 # 自然语言处理 # 搜索推荐 # 语音技术 # 计算机视觉

nefelibata

|

9月前

|

博文

2025年热门智能客服机器人评测：哪款更好用?

2025年，智能客服机器人市场竞争激烈，功能日益强大。主要品牌如合力亿捷、阿里云、华为云、京东京小智和小米商城等纷纷推出具备精准语音识别、语义理解、多渠道接入等功能的产品，广泛应用于电商、金融、零售等领域，显著提升客服效率与客户满意度，降低企业运营成本。

# 客服工作台 # 自然语言处理 # 智能语音交互 # 自然语言处理 # 算法 # 机器人 # 语音技术 # 数据安全/隐私保护

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Zonos：油管博主集体转粉！开源TTS神器Zonos爆火：克隆你的声音说5国语言，还能调喜怒哀乐

Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型，支持语音克隆、情感控制和多种语言，适用于有声读物、虚拟助手等场景。

# 智能语音交互 # 人工智能 # 编解码 # 自然语言处理 # 语音技术 # Apache

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

TIGER 是清华大学推出的轻量级语音分离模型，通过时频交叉建模和多尺度注意力机制，显著提升语音分离效果，同时降低参数量和计算量。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 机器人 # 人机交互 # 智能硬件

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具，支持语音识别、字幕断句、优化、翻译全流程处理，并提供多种字幕样式和格式导出。

# 图像识别 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互