语音技术的搜索结果_热门_第9页-阿里云开发者社区

V897857410

|

博文

本文介绍了如何从零开始搭建一个语音对话机器人，涵盖自动语音识别（ASR）、自然语言处理（NLP）和文本到语音合成（TTS）三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS，以及FastAPI和Gradio等技术，详细指导读者轻松实现个人AI小助手的构建，适合技术新手快速上手。

# 智能对话机器人 # GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 机器人 # API # 语音技术

袁长猛

|

7月前

|

博文

IndexTTS2.0_ 情感表达与时长可控的自回归零样本语音合成突破

IndexTTS2 是首个实现自回归模型下**时长可控**、**情感与音色解耦**的零样本语音合成系统。支持语音克隆、情感迁移与文本驱动情绪控制，适用于影视配音、虚拟主播等场景。开源代码与模型已发布，提供完整本地部署方案，大幅提升语音合成的实用性与表现力。

# 自然语言处理 # 语音技术 # 开发工具 # git # Python

游客f4qkvgoll7tps

|

11天前

|

博文

技术实战：基于CLI与AgentSkill 构建工业级AI影视解说自动化链路

本文介绍2026年AI影视解说新范式：基于narrator-ai-cli与Skill架构的本地优先自动化Pipeline。支持一行命令或自然语言指令，打通视频理解、文案生成、配音剪辑全流程；兼顾数据隐私（GB级素材本地处理）与云端智能（大模型文案/TTS），实现工业化、可扩展的短视频量产。

# 人工智能 # 自然语言处理 # API # 语音技术 # Python

视频云技术小编

|

博文

深入浅出 WebRTC AEC（声学回声消除）

为什么会议、聊天和直播连麦等不能用 RTMP 做？必须用 WebRTC？因为 WebRTC 中的音频处理是非常关键的技术，详细可以看这个文章，公式有点多，但别怕，都是简单代数，能看懂的。

# Web App开发 # 机器学习/深度学习 # 存储 # 缓存 # 算法 # 网络协议 # 语音技术 # Android开发 # 芯片 # Windows

wljslmz

|

博文

什么是长短期记忆 (LSTM)，它如何发挥作用？

【8月更文挑战第23天】

# 机器学习/深度学习 # 存储 # 自然语言处理 # 文字识别 # 语音技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MoneyPrinterTurbo：23.9K Star！这个AI把写文案+找素材+剪视频全包了，日更10条不是梦

MoneyPrinterTurbo 是一款功能强大的 AI 工具，支持通过主题或关键词自动生成视频文案、素材、字幕与背景音乐，并合成高清短视频，适合批量生成与多语言支持。

# 图像识别 # 人工智能 # 前端开发 # API # 语音技术 # Windows

bailiantest1

|

博文

|

来自：千问大模型

阿里云百炼产品月刊【2025年9月】

本月通义千问模型大升级，新增多模态、语音、视频生成等高性能模型，支持图文理解、端到端视频生成。官网改版上线全新体验中心，推出高代码应用与智能体多模态知识融合，RAG能力增强，助力企业高效部署AI应用。

# 人工智能 # 移动开发 # 自然语言处理 # API # 语音技术

net936

|

1月前

|

博文

从零搭建一个免费的文本转语音在线工具（基于 Python3 + Edge TTS）

最近有个需求，需要把一段文字转换成语音，找了几个在线工具，要么收费，要么有水印，要么音质惨不忍睹。后来发现微软 Edge 浏览器的 TTS（Text-to-Speech）服务音质非常好，而且免费开放使用。于是动手写了一个在线工具，分享给大家。

# 前端开发 # API # 语音技术 # 数据安全/隐私保护 # Python

Flittly

|

24天前

|

博文

|

来自：阿里云百炼

【SpringAIAlibaba新手村系列】（10）Text to Voice 文本转语音技术

本文围绕 Spring AI Alibaba 1.1.2.2 的文本转语音实现展开，记录了基于 DashScopeAudioSpeechModel 与 stream() 的可运行方案。文章重点说明了模型、音色、输出格式与流式拼接音频文件的关键细节。

# 大模型服务平台百炼 # 人工智能 # JavaScript # Java # 语音技术 # Spring

ModelScope内容运营小助手

|

博文

Qwen2-Audio开源，让VoiceChat更流畅！

在一个通用的AI系统中，核心模型应该能够理解不同模态的信息。当前的大语言模型现在已经能够理解语言并进行推理，并且已经扩展到了更多的模态，包括视觉和音频。

# 对象存储 # 人工智能 # JSON # 语音技术 # Swift # 数据格式

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术