语音技术

首页 标签 语音技术
# 语音技术 #
关注
6650内容
|
12小时前
|
企业微信协议语音链路的技术实现
企业微信移动端语音采用0x0602指令,通过长连接传输Silk压缩流,降低30%首包延迟。协议含固定帧头与TLV结构,支持AES加密与实时解码,网关可透明转码对接ASR系统,整体延迟约8ms,CPU占用低。
|
18小时前
| |
阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX
阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。
国高认证数字人实力技术
数字人技术融合AI、图形学与语音合成,打造虚拟与现实共生新生态。从2D到3D,从预设交互到情感拟人,广泛应用于电商、医疗、教育等领域。技术突破推动产业革新,正迈向元宇宙社交与数字分身的未来。
数字人数字服务新技术
数字人技术正重塑人机交互,融合AI、图形学与语音合成,打造具备感知与决策能力的“数字生命体”。从医疗模拟到虚拟偶像,其应用广泛。
|
1天前
|
一图掌握通义千问:模型生态与应用场景全览
通义千问(Qwen)系列提供全栈开源AI能力,涵盖语言、视觉、语音等多模态应用。旗舰模型Qwen3-Max性能领先,支持92种语言翻译与高精度语音识别,具备强大代码生成与图像处理能力,助力开发者与企业高效构建智能应用。
从“皮囊”到“灵魂”:构建实时交互型数字人的核心技术栈与实践
数字人已从银幕上的炫技特效,逐步走向直播、客服、教育等实时交互场景。作为一名开发者,如何理解并动手构建一个“能听、会说、能思考、有表情”的实时交互数字人?本文将为你拆解其背后的四大核心技术栈,并分享基于阿里云服务的架构实践,助你快速踏入数字人开发的大门。
2025年AI Agent客服机器人深度测评:五款主流厂商对话流畅度、理解能力横向测评
2025年AI Agent客服进入“元年”,企业选型从简单问答转向深度理解与流畅交互。本文构建四大测评维度,横向对比五款主流产品,揭示AI客服向“可执行任务的AI员工”演进趋势,助力企业智能转型决策。
数字人平台数字分身技术分析
数字人正重塑生活,从虚拟偶像到金融医疗赋能。三维图形计算突破,构建全栈技术闭环,推动虚实融合的“数字分身”革命,引领中国范式崛起。
AR眼镜在核电操作智能监护应用技术方案|阿法龙XR云平台
基于AR眼镜的多模态智能监护系统,融合视觉、语音与AI技术,实现核电操纵员“唱票-操作-复核”全流程实时监控与智能干预。通过工业级AR设备与“边缘+云端”架构,提供设备识别、语音交互、程序解析与声光报警功能,提升操作准确性与安全性,助力核电数字化转型。(238字)
|
4天前
|
“2025年AI革新启航:揭榜挂帅,赋能工业新纪元先锋工程启动”
2025年AI革新启航,国家工信部启动“揭榜挂帅”工程,推动AI与工业深度融合,赋能新型工业化,深度学习等关键技术助力产业升级。
免费试用