语音技术

首页 标签 语音技术
# 语音技术 #
关注
6932内容
Coze (扣子) 开发AI智能体
Coze(扣子)是零代码构建AI智能体的核心平台。本文详解如何用其开发高阶英语学习Agent:从角色设定、插件集成、工作流编排、RAG知识库,到记忆管理与多端发布,助力打造精准、可落地的口语纠错智能体。(239字)
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
AI跨境导航网站分享
**AI导航简介:** [AI导航](https://www.ainav.vip/) 是一个全面收录各类AI工具的网站,旨在帮助用户快速找到符合需求的AI资源。涵盖图像生成、智能写作、数据分析等多领域工具,提供精准分类和高效检索功能,确保您紧跟AI技术最新潮流。动态更新,助您轻松发现并利用强大的AI工具。
|
8月前
|
免费版的配音软件,支持童声男声女声不同声音选项,语音转文字软件推荐支持多种声音
免费版的配音软件,支持童声男声女声不同声音选项,语音转文字软件推荐支持多种声音
|
2月前
|
一次成功!阿里云百炼 API Key 获取 + 开通全攻略
本文为2026最新阿里云百炼API Key获取与使用指南,涵盖权限要求、开通步骤、创建流程及常见问题。详解主/子账号操作、归属空间选择、Base URL配置、代码与工具调用方式,并强调API Key安全规范与临时密钥使用场景。(239字)
|
24天前
|
动动嘴就能编程!阿里云千问Qwen3.5-Omni发布:全模态全球最强,支持113种语言,免费体验
阿里云发布全模态大模型Qwen3.5-Omni官网:https://t.aliyun.com/U/JbblVp 测试全球第一,支持113种语言识别与36种语音合成,首创“音视频Vibe Coding”——对镜头口述需求即可生成APP/网页/游戏代码。免费开放体验,开发者可通过阿里云百炼调用API。
AI电影解说:基于narrator-ai-cli与 Skill工作流深度实操与解读
本文详解如何用开源命令行工具 `narrator-ai-cli` 与 `narrator-ai-cli-skill`,构建本地优先、Agent 驱动的电影解说工作流:从零安装、配置、单条出片,到接入小龙虾/ Windsurf 等 Agent,支持爆款风格学习、TTS停顿控制、语音克隆及团队配额管理——全程不上传原片,兼顾隐私、效率与可控性。(239字)
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战
通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
|
1月前
|
2026最新阿里云GPU服务器租赁价目表:AI 推理 / 训练算力费用与场景汇总
阿里云AI服务器提供GPU(A10/V100/T4/P4/P100等)、FPGA等多种加速方案,单实例最高5PFLOPS算力,适用于AI训练、推理、科学计算等场景。本文汇总2026年最新月付/年付/按小时优惠价格及规格配置,助您高效选型。(239字)
免费试用