语音技术的搜索结果_热门_第12页-阿里云开发者社区

ZOMI酱

|

博文

本文深入解析知识蒸馏(Knowledge Distillation, KD)，一种将大型教师模型的知识高效转移至小型学生模型的技术，旨在减少模型复杂度和计算开销，同时保持高性能。文章涵盖知识蒸馏的基本原理、不同类型的知识（如响应、特征、关系知识）、蒸馏方式（离线、在线、自蒸馏）及Hinton的经典算法，为读者提供全面的理解。

# 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 语音技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，适用于多种应用场景。

# 日志服务 # 智能语音交互 # 人工智能 # 监控 # 算法 # 数据挖掘 # 语音技术

34789737

|

4月前

|

博文

免费版的配音软件，支持童声男声女声不同声音选项，语音转文字软件推荐支持多种声音

# 智能语音交互 # 智能语音交互 # 人工智能 # API # 语音技术

袁长猛

|

3月前

|

博文

IndexTTS2.0_ 情感表达与时长可控的自回归零样本语音合成突破

IndexTTS2 是首个实现自回归模型下**时长可控**、**情感与音色解耦**的零样本语音合成系统。支持语音克隆、情感迁移与文本驱动情绪控制，适用于影视配音、虚拟主播等场景。开源代码与模型已发布，提供完整本地部署方案，大幅提升语音合成的实用性与表现力。

# 自然语言处理 # 语音技术 # 开发工具 # git # Python

阿里云开发者

|

3月前

|

博文

你们催更的模型，云栖大会一口气全发了！

通义发布6款全新模型及“通义百聆”语音品牌，覆盖文本、视觉、语音、视频、代码、图像全场景。Qwen系列升级显著提升多模态理解与生成能力，Wan2.5支持音画同步，百聆攻克企业语音落地难题，全面赋能AI应用创新。

# 人工智能 # 自然语言处理 # 文字识别 # 云栖大会 # 语音技术

bailiantest1

|

11天前

|

博文

|

来自：通义大模型

Qwen3-Omni新升级:声形意合，令出智随！

Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型，支持文本、图像、音频、视频输入，实现自然语音与文本同步输出。全面优化音视频理解与生成，支持多轮流畅对话、自定义人设与系统指令，提升多语言及跨模态交互准确性，语音更拟人，图像视频理解更深入，打造“声形意合”的智能交互体验。（239字）

# 大模型服务平台百炼 # 人工智能 # 自然语言处理 # 文字识别 # 语音技术

-编程工程师-

|

博文

开源上新｜FunASR多语言离线文件转写软件包

# 智能语音交互 # 智能语音交互 # 自然语言处理 # 语音技术 # 开发者 # Docker # 容器

DreamSpark

|

博文

音频基座大模型FunAudioLLM体验评测

一文带你详细了解音频基座大模型FunAudioLLM

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 人机交互 # 语音技术 # 开发者

yumuing

|

博文

|

来自：弹性计算

【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声（伪音）、 AI 孙燕姿

根据本文，可以很简单实现：音乐干声分离：背景音（BGM）与人声（干声）的分离；训练个人音色模型：作为模仿其他干声素材的音色数据；男女换声（伪音）：基于异性干声素材，进行实时转化声音为异性声音；AI 唱歌：仅作基础的模拟演唱，仍需进行调音等等操作，才可以达到完美；音色融合：不同音色的特征融合出一个全新的音色

# 人工智能 # 缓存 # 算法 # 大数据 # 语音技术 # 索引

游客7ntycxfoyzgpi

|

12天前

|

博文

|

来自：通义大模型

大模型如何重塑语音交互？AI外呼五大技术变革正在发生

语音交互的未来是“智能体”

# 大模型服务平台百炼 # 人工智能 # 自然语言处理 # 安全 # 语音技术 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术