智能语音交互的搜索结果_热门_第6页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型，支持多种犬种选择并适配智能家居设备，其核心技术基于深度神经网络训练。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 编解码 # 监控 # 智能硬件

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

# GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算 # 智能硬件

游客tqsxlcu6ie37g

|

问答

|

来自： ModelScope模型即服务

【技术揭秘】可控时延语音识别文本后处理技术

# 智能语音交互 # 机器翻译 # 智能语音交互 # 人工智能 # 自然语言处理 # 算法 # 语音技术

周周的奇妙编程

|

博文

声临其境！体验阿里云开源音频基座大模型——FunAudioLLM

阿里通义实验室开源了全新的音频基座大模型FunAudioLLM，包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测，支持50余种语言，中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成，只需3-10秒原始音频即可克隆音色，并支持跨语言合成。FunAudioLLM的应用场景广泛，包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示，其生成的语音自然流畅，支持定制化及高级情绪控制，超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 搜索推荐 # 语音技术 # Windows

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 语音技术 # 智能硬件

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法，能够有效消除背景噪声，保留语音清晰度，并提供先进的预训练模型和训练脚本，支持研究人员和开发者进行语音处理任务。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 达摩院 # 算法 # 语音技术

V897857410

|

博文

手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）

本文介绍了如何从零开始搭建一个语音对话机器人，涵盖自动语音识别（ASR）、自然语言处理（NLP）和文本到语音合成（TTS）三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS，以及FastAPI和Gradio等技术，详细指导读者轻松实现个人AI小助手的构建，适合技术新手快速上手。

# 智能对话机器人 # GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 机器人 # API # 语音技术

三分钟热度的鱼

|

问答

在阿里语音AI这个语音识别H5可以用吗？

# 智能语音交互 # 智能语音交互 # 人工智能 # 移动开发 # 语音技术

ModelScope内容运营小助手

|

博文

基于开源技术的数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

魔搭社区最近上线了基于开源技术的数字人实时对话demo，无需预训练即可使用自定义的数字人形象进行实时对话，支持语音输入和实时对话。

# 虚拟数字人 # 智能语音交互 # 智能语音交互 # API # 语音技术 # 开发者 # 流计算 # UED

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互