语音技术

首页 标签 语音技术
# 语音技术 #
关注
6945内容
|
3月前
| |
来自: 云原生
5 分钟上手 HarmonyOS Skill:快速集成语音与意图交互能力
本文带你5分钟上手HarmonyOS Skill,快速集成语音唤醒与意图识别能力。详解Skill概念、注册配置、onNewWant响应逻辑及语音语料设置,助你让应用听懂“打开天气”“打个招呼”等自然语言指令,轻松接入小艺(Celia)生态。(239字)
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
微软开源 VibeVoice:90 分钟播客级语音合成技术解析
微软开源VibeVoice,突破语音合成瓶颈:支持90分钟自然对话、4人实时互动,首创7.5Hz超低帧率+双Tokenizer架构,音质达MOS 4.2,显存仅需6GB。含长文本(1.5B)与实时(0.5B)双版本,中英文支持,MIT协议开源。(239字)
|
3月前
|
阿里云百炼优惠券:满20减10元+返券50元+免费领取7000万Tokens,2026阿里云AI大模型权益
阿里云百炼推出2026开年大促:新客享满20减10元券、按量消费达标最高返50元、免费领7000万Tokens+100图+50秒视频!低成本体验Qwen3、万相2.6等前沿模型,覆盖智能体搭建、RAG知识库、AI图文视频创作等场景。
FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
FlashLabs 发布全球首个开源、端到端、实时语音到语音 AI 模型 Chroma 1.0,支持低延迟(TTFT \x26lt; 150ms)、高保真语音克隆与强对话能力,旨在成为 OpenAI Realtime API 的开源替代方案。
AI 英语口语学习APP的开发
开发AI英语口语APP,融合语音技术、大语言模型与游戏化交互,聚焦情绪感知、低延迟对话与多模态体验。涵盖产品设计、核心技术选型、功能开发、合规安全与测试优化五大阶段,打造沉浸式、个性化口语学习新方式。(238字)
2026年5款高转化AI语音机器人盘点:智能导购选哪家?
本文深度评测2026年主流AI语音机器人,聚焦智能导购场景,从大模型理解力、真人感交互及部署成本等维度,为您筛选出能显著提升转化率的选型方案,助企业在数字化转型中抢占先机。
|
3月前
|
AI上阵,短信防线升级:SKT用深度学习狙击韩国“全民诈骗潮”,中国运营商能否借镜?
韩国SK电信利用AI构建反诈防火墙,2025年成功拦截11亿次诈骗,涵盖短信与语音钓鱼。其三层AI系统融合语义理解、行为分析与URL实时阻断,为中国提供“运营商+AI”反诈新范式参考。
AI在英语口语学习中的应用
AI已从“机械复读”进化为具备情感与逻辑的“数字外教”,深度赋能英语口语学习。从音素级纠音、沉浸式对话到全场景模拟,AI提供个性化、实时反馈的智能训练,助力学习者突破发音、表达与场景应用难关,实现口语能力的全面提升。#AI技术 #英语口语
免费试用