语音技术

首页 标签 语音技术
# 语音技术 #
关注
6609内容
|
4小时前
| |
魔搭社区模型速递(8.30-9.06)
🙋魔搭ModelScope本期社区进展:3361个模型,313个数据集,73个创新应用, 8篇内容
|
6天前
|
AI电话客服的服务质量提升路径:关键技术与典型应用场景解析
AI电话客服正从基础语音工具进化为能处理复杂业务的智能体。本文深入解析服务质量提升的关键技术路径与行业应用,涵盖语音识别、情感分析、多轮对话等核心技术,以及智能外呼、自动质检、客户数据分析等典型场景,助力零售、电商、制造、互联网等行业构建高效、有温度的智能客服体系,推动人机协同服务升级。
Step-Audio2 声音克隆 详细介绍
Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。
语音克隆 Index-TTS 详细介绍
Index-TTS 是由国内团队开发的端到端超大规模语音合成系统,具备高自然度与相似度,支持中文及中英混读。其参数量达10亿级,训练数据超10万小时,推理延迟低于200毫秒,提供零样本音色克隆、长篇章朗读及可控风格等关键功能,定位为中文领域的Bark/VALL-E 2 + Tortoise + xTTS三合一系统。
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
魔搭社区模型速递(8.23-8.30)
🙋魔搭ModelScope本期社区进展:📟4924个模型,📁357个数据集,🎨99个创新应用,📄 9篇内容:
|
7天前
| |
阿里云百炼产品月刊【2025年8月】
阿里云百炼平台8月推出多项更新与活动。通义千问系列重磅升级,新增多款图像、语音及研究模型,如Qwen-Image、Qwen-Image-Edit、Qwen-MT-Image、Wan2.2-S2V等,全面增强图文生成与编辑能力。推出Qwen-Flash轻量模型,优化代码与推理性能,支持高并发低延迟场景。平台服务稳定性提升,部分模型计费策略调整,上下文缓存价格降低至input_token的20%,并提供100万免费token额度。同步上线“实训Agent创客”活动,助力用户快速上手新模型,提升实践能力。
前端实现多方言实时转写:VAD端点检测+流式ASR接入,识别准确率提升300%
本文面向前端工程师,详解多方言中文自动语音识别(ASR)的完整落地接入方案,涵盖录音采集、音质增强、编码传输、流式识别、结果合并等关键技术环节,助力实现“即录即识、边说边出字”的实时交互体验。
免费试用