下一章:智能语音终端开发板介绍 | 《无需从0开发 1天上手智能语音离在线方案》第二章>>>
1. 概述
针对智能语音应用场景,平头哥推出了以AliOS Things内核为基础的智能语音软件平台。该平台支持多款高性价比的语音AI芯片,提供了丰富的驱动模块及组件,包含拾音模块、本地唤醒算法模块、播放器模块及云端语音服务模块等,为客户快速实现产品落地提供了有力支撑。
2. 智能语音终端SDK架构特点
yoc_platform_structure
平头哥智能语音终端SDK有如下特点:
面向智能语音领域的软件框架
• 支撑语音应用的丰富组件:拾音、播放器、语音云服务等
• 易于适配的本地算法框架
• 完整的智能音箱解决方案应用DEMO
极简开发
• 提供 CDK IDE 开发工具
• 提供 Shell 交互,支持内存踩踏、泄露、最大栈深度等各类侦测
• 提供包括低功耗框架、网络协议、蓝牙协议栈、虚拟文件系统、网络管理等各类模块化组件
高度优化的内核
• 内核支持 Idle Task 成本:Ram<1K,Rom<2k
• 支持 CSKY加速指令对系统性能进行优化
全面的安全保护
• 提供系统和芯片级别安全保护
• 支持可信运行环境(TEE)
• 支持预置ID2根身份证和非对称密钥以及基于ID2的可信连接和服务
IoT 专属组件
• 空中固件升级(FOTA)
• 集成 AT 模组指令
• 快速 IoT 云端接入
• 支持多种物联网协议:Alink、MQTT、COAP、LWM2M
• 支持多种网络协议栈:
– TCP/IP协议栈(LwIP)
– 套接字适配层(SAL)
– 自组织网络协议(uMesh)
– 支持 WIFI、Ethernet、NB-IoT、GPRS、Bluetooth 等通信硬件
3. 语音领域组件
智能语音终端方案集成了针对语音应用领域的专用组件,提供了一系列便于用户使用的上层接口,通过这些接口的组合,用户可以快速开发出符合产品定义的应用代码。本章将会介绍包括播放器、语音服务、云服务相关的功能架构,在《智能语音终端应用开发指南》一章将会详细介绍相关API的使用方法。
3.1 播放器服务
播放器支持mp3,mp4,flac、wav、amr等多种常见音频格式,可实现常用播放控制的功能,同时支持提示音、语音合成(TTS)、音乐播放的状态切换与维护等智能语音功能,方便上层应用开发。
player_architect
其功能特点如下:
• 轻量、极简音频播放器
• MP3 解码: ROM < 35K, RAM < 20K
• 四层架构,按需裁剪&扩展
• 低时延,首播延时最低<20ms
• 编解码DSP指令加速,充分利用硬件资源
• 支持本地/核间(跨核)解码
• 支持wav、mp3、m4a、amrnb、amrwb、flac、adts等多种音频格式
• 支持sd卡、http(s)、fifo、mem等多种取流方式
• 支持语音合成(TTS)播放
• 支持软件音量、音量曲线配置
• 支持音频信息及当前播放时间获取
• 支持重采样输出
• 支持音效(audio effector)、量化器(EQ)扩展及配置
其支持的播控操作如下:
• 支持多种类型播放、暂停、恢复、停止等操作
• 支持音乐播放后自动恢复
• 支持音量调节及渐入渐出效果
• 支持最低音量播放
3.2 语音服务
语音服务提供了拾音及本地算法相关功能,为智能语音应用的核心组件。用户使用该组件可以方便的获取包括本地唤醒、断句、回声消除等服务。
其功能特点如下:
• 支持多路麦克风及参考音采集
• 支持16/24/32/48 KHz的音频采样率
• 支持KWS、VAD、AEC等多种本地算法
3.3 云服务
语音云服务提供了针对智能语音应用的云端语音识别、语音合成、语义理解等服务接口,用户结合语音服务的相关事件即可快速实现符合产品定义的语音交互流程。
aui_cloud_architect
其功能特点如下:
• 支持云端ASR、NLP、TTS服务
• 支持唤醒音频云端二次确认
• 支持交互流程打断
• 已接入多家语音云服务平台