语音技术

首页 标签 语音技术
# 语音技术 #
关注
6837内容
阿里云百炼API Key在哪获取?这篇保姆级教程一步到位!
本文为2026最新阿里云百炼API Key获取与使用指南,详解主/子账号操作步骤、地域Base URL配置、代码调用及环境变量设置,并说明权限归属、时效性(永久有效+60秒临时Key)及常见问题,助您安全高效接入大模型。
书尖 AI 功能实测|阿里云 AI 技术加持,与喜马拉雅听书体验深度对比
在阿里云AI赋能下,书尖AI实测展现三大优势:1.2亿册全品类书库、双人互动式AI播客、2分钟极速提炼书籍精华,并依托阿里云TTS实现自然听书体验。相较喜马拉雅,其AI深度解读与定制化能力更胜一筹。(239字)
书尖 AI 功能实测|基于阿里云 AI 技术,与微信读书阅读体验对比
本文深度实测阿里云赋能的智能阅读工具“书尖AI”,对比微信读书,客观呈现其1.2亿册书库、双人AI播客听书、2分钟极速解读等核心优势,展现高效轻松的智能阅读新体验。(239字)
|
21天前
|
2026年阿里云无影云电脑部署OpenClaw(Clawdbot)小白零基础教程
在AI自动化工具飞速发展的2026年,OpenClaw(原Clawdbot)凭借其轻量高效、开源免费、全场景适配的核心优势,成为个人办公提效、企业轻量化数字化转型的首选工具。与传统聊天机器人不同,OpenClaw并非单纯的对话工具,而是一款具备真实操作能力的个人AI助手,可实现邮件管理、日历规划、网页自动化、多平台IM集成等多种功能,既能部署在本地设备,也能完美适配阿里云无影云电脑,兼顾便捷性与云端稳定性,即便毫无技术基础的小白,也能快速完成部署落地。
|
21天前
| |
大模型应用:TTA文本驱动音频:MusicGen大模型参数调优+音频情绪可视化.23
本文介绍了一套融合MusicGen大模型(创意生成)与传统信号合成(ADSR包络、分形噪声、混响等)的AI音频生成系统,涵盖声音本质解析、参数配置、代码实现及多维可视化(波形/频谱图、情绪热力图),实现可控、场景化的音乐与音效生成。
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
|
22天前
| |
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
本文介绍了一个轻量级TTS+ASR融合交互系统,基于HTML/CSS/JS前端与Python Flask后端,集成Whisper语音识别与pyttsx3文本转语音,实现“语音→文本→语音”闭环。支持浏览器录音、实时转写、语音播放及历史管理,无需依赖框架或网络,适合快速部署与二次开发。
|
23天前
| |
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
本文详解OpenAI Whisper语音转文本(ASR)技术,涵盖基础概念、模型选型(tiny至large-v3)、核心参数调优(language/temperature/beam_size等)、代码实战、词级时间戳、批量处理、说话人分离及音频降噪等进阶技巧,助力零基础用户快速上手并精准适配各类场景。
|
24天前
|
docker 下部署 纯CPU的Nway ASR & TTS
本方案提供基于Docker的纯CPU版Nway语音识别(ASR)与合成(TTS)一体化部署:含定制Dockerfile、多服务启停脚本及Flask HTTP网关,支持RESTful API调用,开箱即用,无需GPU,适配x86 CPU环境。(239字)
|
24天前
| |
实战分享 | 抛弃本地Whisper,我用“通义千问+Paraformer”构建了一套B站收藏视频RAG知识库
本文分享如何用阿里云DashScope“全家桶”(Paraformer语音转写+Qwen-Max推理+Text-Embedding-v4向量化)替代本地Whisper,构建轻量、高效、高精度的B站视频RAG知识库,解决显存不足、转写慢、中英识别差等痛点,实测速度提升20倍以上。
免费试用