语音技术

首页 标签 语音技术
# 语音技术 #
关注
6672内容
|
1小时前
|
阿里云百炼支持哪些AI大模型?文本生成、图像生成、语音合成及视频编辑等模型整理
阿里云百炼支持通义千问、通义万相等自研模型及DeepSeek、Kimi、Llama等第三方大模型,覆盖文本生成、图像生成、语音合成、视频生成、向量计算等多类AI能力,助力开发者高效构建应用。新用户可免费领取最高5000万Tokens。
|
18小时前
|
2025年数字人制作工具选型指南:从架构集成与渲染精度出发的五大评估维度
本文深入剖析数字人技术选型难题,聚焦渲染精度、生成效率与全链路集成三大核心维度。对比必火AI、UE5高定方案与开源工具的技术优劣,揭示“少样本训练+4K超清输出+多模态融合”如何破解工程落地瓶颈,助力团队避开API碎片化与实时性误区,实现分钟级视频批量生成,为不同场景提供高效可落地方案。
|
23小时前
|
数字展厅升级重点推荐方案:AI数字人+智慧大屏实现低成本高互动
传统展厅升级痛点多?AI数字人+智慧大屏方案来了!无需更换硬件,低成本快速部署,支持智能问答、多语种讲解、后台一键更新内容。适配政务、企业、文旅等多场景,提升互动体验与运营效率,助力展厅迈向“可对话、会思考”的智慧新时代。
|
1天前
| |
阿里云百炼产品月刊【2025年11月】
通义千问本月重磅升级:上线10款多模态与语音模型,涵盖ASR、TTS、视觉语言及翻译;MCP市场新增3个云服务,上架24个电商应用模板;推出实训Agent创客活动,助力高效生成电商视觉内容。
情绪之眼:Rokid智能眼镜赋能特殊儿童情感沟通新桥梁
本文基于Rokid CXR-M SDK,构建面向自闭症儿童的情绪识别与干预系统,通过AR眼镜实时采集表情,结合AI分析实现情绪识别,并为照顾者提供即时应对策略。系统涵盖设备连接、视频分析、视觉与语音交互等模块,具备低延迟、便携性强、隐私安全等特点,助力特殊儿童情感沟通,推动科技向善落地。
AI数字人解锁数字展厅的“智慧大脑”,展厅互动体验焕新升级
在数字化转型浪潮中,波塔AI数字人系统以AI技术重塑展厅体验,破解传统展厅人力成本高、交互单一等痛点。支持24小时智能讲解、多模态互动、个性化推荐、多语种服务,并联动灯光、大屏等设备打造沉浸式空间。兼具品牌代言人、智能导览员与数据分析师多重角色,助力企业实现从“展示”到“服务”的智慧升级,开启展厅新时代。
|
3天前
|
一键搞定人脸识别、语音识别、车牌识别本地化!离线跑模型不装框架!!!
SmartJavaAI 是专为 Java 开发者打造的离线 AI 工具箱,集成人脸识别、OCR、语音识别、机器翻译等 20+ 主流模型,基于 DJL + JNI 封装,支持 Maven 一键引入,两行代码调用,让 Java 工程师无需掌握 Python/C++ 即可轻松接入 AI 能力,高效落地各类智能场景。
2026智慧展厅设计新趋势,AI数字人智慧大屏助力企业展厅价值升级
2026年,智慧展厅迈入AI驱动新阶段,以“智能化、交互化、场景化”为核心,融合AI数字人、大模型与物联网技术,实现语音互动、智能导览、数据联动和业务协同。AI数字人智慧大屏成为企业展示实力的窗口,让展厅从“被动观看”变为“主动体验”,升级为集品牌传播、客户交互与价值转化于一体的智能中枢,推动数字经济发展下展厅形态的全面革新。
AI数字人技术力盘点:数字人平台技术实力、产品实测、市场口碑综合推荐
2025年,AI数字人爆发:克拉玛依“小克”上线,罗永浩数字人6小时带货5500万。IDC数据显示,中国AI数字人市场规模2024年达41.2亿元,增速85.3%。世优科技以全栈技术打造1200+数字人IP,赋能政务、文旅等场景;科大讯飞依托语音优势,让“数字大圣”多语互动;微软小冰聚焦明星IP,孵化洛天依等虚拟偶像。从技术深耕到IP运营,三巨头各展所长,推动数字人从概念走向规模化落地,重塑商业未来。
|
5天前
|
基于Rokid CXR-M SDK实现AR智能助手应用:让AI大模型走进AR眼镜
本文记录使用Rokid CXR-M SDK开发AR AI助手的全过程,涵盖SDK集成、语音识别、AI对接、结果推送等核心功能,分享实际开发中的技术选型、架构设计与踩坑经验,实现解放双手的实时语音问答体验。
免费试用