语音技术

首页 标签 语音技术
# 语音技术 #
关注
6839内容
|
19小时前
|
智眸:基于 Rokid Glasses的房产经纪人带看辅助应用
智眸是贝壳找房为房产经纪人打造的AI眼镜应用,基于Rokid Glasses实现“镜在眼前,智慧搭伴”。通过双端协同,实时投送小区信息、智能提词、全场拾音录制,解放双手、提升专业形象与带看效率,助力经纪人专注服务、沉淀数据。
|
1天前
|
豆包语音识别热词功能实现指南
本文详解HagiCode项目中集成豆包语音识别热词功能的完整实践:支持自定义热词(`context`)与平台热词表(`boosting_table_id`)双模式,可独立或组合使用;涵盖前端TypeScript验证、localStorage持久化、后端C# SDK扩展及WebSocket参数传递,显著提升专业术语识别准确率。(239字)
AI 技术在少儿英语 APP 中的应用
AI已成少儿英语APP核心驱动力:拟人外教、创意绘图、儿童语音纠错、游戏化关卡与记忆追踪五大场景深度融合,兼顾趣味性、发音耐受度与安全合规(本地处理、防沉迷、COPPA)。2026技术实现<500ms低延时、音素级反馈与个性化学情诊断。(239字)
AI 英语口语 APP 的开发
本指南详解2026年国产AI英语口语APP开发全流程:聚焦实时语音交互(<300ms)、多模态数字人、多维纠错与动态场景模拟四大核心;推荐国产大模型+声网/讯飞技术栈,强调端到端语音链路与情感化TTS;含合规备案、成本估算及避坑建议。(239字)
|
2天前
|
解决浏览器 WebSocket 认证难题:豆包语音识别的代理方案实践
本文分享HagiCode项目中解决浏览器WebSocket无法传认证Header的实践:通过后端WebSocket代理,安全转发音频流至豆包语音识别服务。方案经playground验证后落地生产,兼顾安全性、简洁性与稳定性。(239字)
|
4天前
|
2026最新阿里云GPU服务器租赁价目表:AI 推理 / 训练算力费用与场景汇总
阿里云AI服务器提供GPU(A10/V100/T4/P4/P100等)、FPGA等多种加速方案,单实例最高5PFLOPS算力,适用于AI训练、推理、科学计算等场景。本文汇总2026年最新月付/年付/按小时优惠价格及规格配置,助您高效选型。(239字)
|
4天前
|
阿里云 GPU 服务器多少钱?AI 算力租赁价格 + 推理训练场景一览
本文汇总阿里云GPU服务器最新租赁价格(含A10/V100/T4/P4/P100等卡),涵盖按小时、月付、年付三种计费模式,详列GN7i、GN6v等主流实例规格及对应CPU/内存配置、优惠价与适用场景(训练、推理、渲染等),助力AI开发者低成本高效选型。(239字)
|
4天前
| |
来自: 物联网
找到了多个 **Kokoro 量化版本** 可以下载
Kokoro语音合成模型提供多种量化版本:FP32(350MB)、FP16(169MB)、INT8/Q8(约100–103MB)、Q4及AMD NPU优化版,适配桌面、移动端、浏览器与嵌入式设备。支持GitHub、HuggingFace、npm多源下载,兼顾体积与性能。
AI英语学习APP的开发
2026年国产AI英语学习APP已升级为“生成式AI+具身智能+情感交互”新范式:融合国产大模型(DeepSeek/讯飞/通义)双端协同、音素级纠音、OCR实景学习、自适应知识图谱与AI外教Agent,并深度适配微信/HarmonyOS生态,全面通过国内AI备案与未成年保护合规要求。(239字)
AI少儿背单词APP的开发
这是一款AI驱动的少儿背单词APP,融合强化学习、多模态交互与AIGC技术:自适应记忆引擎动态调整复习节奏;CV识物、童声ASR实现“玩中学”;LLM生成兴趣化例句,AI绘图打造沉浸视觉;虚拟伴读+游戏化任务提升动力。严格遵循儿童隐私法规,兼顾科学性与趣味性。(239字)
免费试用