智能语音交互的搜索结果_第2页-阿里云开发者社区

1235930077713436

|

8月前

|

问答

|

来自： ModelScope模型即服务

语音识别 ASR: FunASR、SenseVoice-Small

# 智能语音交互 # 智能语音交互 # 语音技术 # Java

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具，能够实时将语音转换为文本，并自动清理和优化文本内容，适用于会议记录、写作辅助等多种场景。

# 智能语音交互 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

探索云世界动手实践

|

9月前

|

博文

|

来自：大数据与机器学习

让小程序开口说话：DeepSeek语音交互开发指南

本文介绍如何利用DeepSeek语音交互技术构建智能语音助手，涵盖从安装声音采集设备、训练语言理解模型到设计语音控制界面的全过程。通过生活化场景，如深夜查找教程、旅行中寻找餐厅等，展示如何实现自然对话。此外，还深入探讨多轮对话记忆、情感计算及智能家居控制等进阶功能，帮助开发者创建会倾听、善思考的语音应用。最后，提供性能优化与安全防护建议，引领读者进入人机共生的新时代。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 小程序 # 安全 # 开发者 # 智能硬件

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

# GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算 # 智能硬件

技术员阿伟

|

9月前

|

博文

《攻克LSTM语音识别“语速关”：技术新突破与解决方案》

在语音识别中，LSTM虽具强大序列建模能力，但对不同语速的适应性仍面临挑战。为此，可从数据增强（如语速扰动、多语速语料库）、模型改进（引入注意力机制、双向LSTM、增加深度宽度）、训练策略（分层训练、多任务学习、调整参数）及后处理（语速归一化、语言模型融合）等方面入手，全面提升LSTM对不同语速的适应性和识别性能。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 语音技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 物联网 # 测试技术 # 语音技术 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 编解码 # 语音技术

游客6ujrlghjrosxa

|

10月前

|

问答

|

来自：阿里云百炼

通义千问语音识别大模型API 本地上传报错 InvalidParameter问题如何解决？

# 智能语音交互 # 智能语音交互 # 大模型服务平台百炼 # 语音技术 # API

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

GLM-Realtime：智谱推出多模态交互AI模型，融入清唱功能，支持视频和语音交互

GLM-Realtime 是智谱推出的端到端多模态模型，具备低延迟的视频理解与语音交互能力，支持清唱功能、2分钟内容记忆及灵活调用外部工具，适用于多种智能场景。

# 智能语音交互 # 智能语音交互 # 图像识别 # 人工智能 # 自然语言处理 # 搜索推荐 # UED # 智能硬件

modelscope

|

10月前

|

博文

|

来自： ModelScope模型即服务

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近期，由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频，音频，文本输入，以及音频输出。

# 智能语音交互 # 智能语音交互 # JSON # 测试技术 # 语音技术 # 数据格式 # UED

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互