语音技术

首页 标签 语音技术
# 语音技术 #
关注
6638内容
阿里云百炼产品月报【2025年10月】
本月重点:通义千问发布9款Qwen3-VL多模态新模型,覆盖32B至8B多种尺寸,支持思考模式、超长视频理解及2D/3D定位,并推出统一多模态向量与高精度语音识别模型。MCP生态新增17个云服务,电商AI应用模板上线,支持一键生成商品图与宠物店数字人视频,助力高效内容创作。
|
2小时前
|
意图识别不准?大模型电话语音机器人让首轮解决率提升50%
基于大模型的电话语音机器人通过精准意图识别,显著提升客服首轮解决率50%,降低转接率。合力亿捷方案在零售、制造等行业实现智能分流与高效服务,推动企业服务体验与运营效率双提升。
|
3小时前
| |
构建AI智能体:十三、大数据下的“搭积木”:N-Gram 如何实现更智能的语义搜索
N-gram是一种基于上下文的统计语言模型,通过前N-1个词预测当前词的概率,广泛应用于文本生成、输入法预测、语音识别等领域,具有简单高效、可解释性强的优点,是自然语言处理的基础技术之一。
|
1天前
|
2025年数字人平台深度评测排名:主流产品在多语言支持与克隆速度上的表现
随着全球化内容创作兴起,数字人平台面临多语言支持与克隆速度双重挑战。本文深度评测十款主流平台,聚焦40种语言覆盖、语音自然度、口型同步及1分钟内快速克隆等核心指标,揭示技术差异与协同效应,为创作者提供选型参考,助力高效低成本出海。
|
1天前
|
2025年数字人平台综合排名解析:从技术性能到使用成本的全方位评估
在AI重塑内容创作的今天,必火AI数字人平台凭借全链路智能工作流脱颖而出。本文基于三个月实测,从克隆精度、多语言支持到成本效率,全面解析其技术优势与落地价值,为创作者与企业选型提供权威参考。
2025年国内数字人平台选购指南:聚焦全链路能力,告别工具碎片化困境
国内数字人平台众多,功能参差,用户常陷多工具切换、成本高、效率低困境。本文基于2025年实测数据,从全链路集成、场景适配、技术壁垒、成本效益四大维度,深度解析必火AI、火山、阿里、讯飞等主流平台,助你避开选择陷阱,精准匹配个人IP、电商直播、企业服务等应用场景,实现高效视频化转型。
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
Soul AI Lab联合西工大、上交大开源SoulX-Podcast,支持中英粤川等多语种方言及副语言生成,可稳定输出超60分钟自然流畅的多人对话音频,已在Huggingface登顶TTS趋势榜。
阿里云百炼产品月报【2025年10月】
通义千问本月重磅升级:发布9款Qwen3-VL多模态模型,支持视频理解、2D/3D定位;MCP生态新增17项服务;推出电商AI生图模板,助力商家降本增效。
Java 高效实现 WAV 音频拼接彻底摆脱 FFmpeg 的轻量本地方案
本文介绍一种纯Java实现的高效WAV音频拼接方案,无需依赖FFmpeg。通过解析WAV文件结构,利用内存映射与流式写入,实现零转码、低CPU占用的高性能拼接,适用于TTS、播客、嵌入式等场景,具备跨平台、易部署、高稳定性的优势。
|
11天前
| |
来自: 云原生
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
免费试用