智能语音组件适配指南 | 《无需从0开发 1天上手智能语音离在线方案》第六章

简介: 本章介绍 智能语音组件适配指南

上一章:智能语音终端开发板适配指南 | 《无需从0开发 1天上手智能语音离在线方案》第五章 >>>
下一章:基本调试指南 | 《无需从0开发 1天上手智能语音离在线方案》第七章>>>

1. 语音服务适配指南

1.1 概述

语音服务组件提供关键词识别和语音数据的处理控制。输入麦克风的语音数据经过回音消除降噪和关键词识别处理后再输出到应用层使用。YoC在语音服务接口和算法实现之间增加了适配层,方便多种语音算法的接入,保持了应用代码的统一。
下图以SC5654芯片双核架构为例,适配层利用核间通讯,实现应用与DSP算法的数据交互。

image.png

1.2 适配接口

1.2.1 语音服务适配接口

语音服务适配接口注册在mic_ops结构体中,详细信息如下:

组件:mic
头文件:

语音服务的适配接口如下:

image.png

1.2.2 应用接口映射

应用通过调用应用层API,操作对应语音服务适配接口,语音服务开发者只需实现适配接口定义。用户无需修改代码,即可迁移至对应语音服务上。
应用API与语音服务适配接口映射如下:

image.png

1.3 接口说明

init
• 函数原型

int (*init) (mic_t *mic, mic_event_t mic_event);

• 功能描述
语音服务初始化,在应用调用aui_mic_start时会调用该接口。若有私有数据需要保存,可通过函数mic_set_privdata将其保存在mic->priv私有成员指针中。设置后,其他适配函数就可以通过函数mic_get_privdata获取该指针。语音服务层通过应用注册的mic_event回调函数将语音事件传递给应用层。

• 参数描述

image.png

• 相关定义
image.png

image.png

deinit
• 函数原型

int (*deinit) (mic_t *mic);

• 功能描述
应用接口aui_mic_stop执行时会调用该适配接口释放资源。
• 参数描述

image.png
image.png

kws_control
• 函数原型

int (*kws_control) (mic_t *mic, int flag);

• 功能描述
关键词识别使能控制。

• 参数描述
image.png

kws_wake
• 函数原型

int (*kws_wake) (mic_t *mic, int flag);

• 功能描述
强制算法发出一个模拟唤醒事件。

• 参数描述
image.png

pcm_data_control
• 函数原型

int (*pcm_data_control) (mic_t *mic, int flag);

• 功能描述
控制算法输出的音频流的开关。

• 参数描述
image.png

• 返回值
image.png

pcm_aec_control
• 函数原型

int (*pcm_aec_control) (mic_t *mic, int flag);

• 功能描述
控制算法是否使能回音消除。
• 参数描述

image.png

pcm_set_param
• 函数原型

int (*pcm_set_param) (mic_t *mic, void *param);

• 功能描述
初始化语音算法参数。

• 参数描述
image.png
image.png

• 返回值
image.png

mic_set_privdata
• 函数原型

int mic_set_privdata(void *priv);

• 功能描述
设置适配私有数据到mic对象。

image.png

mic_get_privdata
• 函数原型

void *mic_get_privdata(void);

• 功能描述
获取mic对象中的私有数据指针。
• 参数描述

• 返回值
image.png

mic_ops_register
• 函数原型

int mic_ops_register(mic_ops_t *ops);

• 功能描述
注册适配层,一般增加一个适配需要实现一个新的函数封装该函数,提供一个简单的注册函数供应用使用。

image.png

1.4 适配示例

适配完成所有接口函数后,定义适配接口结构体,完成函数注册。
示例如下:

/* 适配接口结构体 */
static mic_ops_t mic_adp_ops = {
    .init = mic_adaptor_init,
    .deinit = mic_adaptor_deinit,
    .kws_control = mic_adaptor_kws_control,
    .kws_wake = mic_adaptor_kws_wake,
    .pcm_data_control = mic_adaptor_pcm_data_control,
    .pcm_aec_control = mic_adaptor_pcm_aec_control,
    .pcm_set_param = mic_adaptor_set_param,
    .pcm_get_param = mic_adaptor_get_param,
};

/* 注册函数 */
void mic_thead_v1_register(void)
{
    mic_ops_register(&mic_adp_ops);
}

2. 云服务适配指南

2.1 概述

云服务组件提供应用与云端ASR/NLP/TTS服务交互的接口。调用对应服务API后,组件自动完成云端连接、鉴权、启动服务的过程,用户只需通过接口将需识别的音频或需合成的字符串传入,即可获得云端返回结果,设备端只需根据结果完成预定的应用行为。

为了减少用户的开发成本, YoC定义了一套统一的适配接口,应用层可以用同样的代码在不同的云服务之间无缝切换。

2.2 适配接口

已适配的组件:aui_aliyunnls、aui_cloud
头文件:
云服务组件的主要API如下:

image.png

2.3 接口说明

aui_cloud_init

• 函数原型

int aui_cloud_init(aui_t *aui);

• 功能描述
该函数用于初始化云服务。参数aui_t结构包含的config成员用来指定语音合成的参数,包括发言人、音量、语速。适配云端请务必参考取值范围并进行转换,保证多平台切换是参数不做调整也能达到预期的效果,还有nlp_cb回调函数,供用户处理云端返回的信息,ASR结果和NLP结果都使用同一个回调。
• 参数描述
image.png
image.png

• 返回值
image.png

aui_cloud_start_pcm

• 函数原型

int aui_cloud_start_pcm(aui_t *aui);

• 功能描述
启动语音数据交互,准备上传语音数据。

image.png

aui_cloud_push_pcm

• 函数原型

int aui_cloud_push_pcm(aui_t *aui, void *data, size_t size);

• 功能描述
推送语音数据到云端进行识别。

• 参数描述

image.png

aui_cloud_stop_pcm

• 函数原型

int aui_cloud_stop_pcm(aui_t *aui);

• 功能描述
结束语音数据推送,云端返回的结果通过调用nlp_cb回调函数通知应用进行处理。

image.png

aui_cloud_push_text

• 函数原型

int aui_cloud_push_text(aui_t *aui, char *text);

• 功能描述
文本内容推送到云端进行NLP处理。

• 参数描述

image.png

• 返回值

image.png

aui_cloud_start_tts

• 函数原型

int aui_cloud_start_tts(aui_t *aui);

• 功能描述
启动TTS语音合成服务

image.png

aui_cloud_req_tts

• 函数原型

int aui_cloud_req_tts(aui_t *aui, const char *player_fifo_name, const char *text, aui_tts_cb stat_cb);

• 功能描述
向云端发送文本信息,请求TTS音频数据。要求异步实现,云端的语音数据可以直接写入播放器的nsfifo,然后调用aui_player_play来播放语音数据。nsfifo的使用方法可参见组件
components_aliyunnls_mit_tts.c中的实现。

• 参数描述
image.png

• 返回值
image.png

aui_cloud_stop_tts

• 函数原型

int aui_cloud_stop_tts(aui_t *aui);

• 功能描述
停止TTS语音合成服务

image.png

3. 语音算法适配指南

智能语音SDK将算法实现与接口分离,设计出了一套层次化得调用框架,用户在此框架上可以方便得将自研算法移植进DSP中,利用SDK中原有得数据采集、播放、上云通道,以实现设备端算法得快速落地。

3.1 框架图

image.png

• AP(Application Processor)主要负责应用开发,CP(coprocessor)用来通过处理主cpu的一些工作负荷来使操作提速的辅助处理器,如语音算法。
• IPC (Inter-Process Communication,异构多核通信)
• voice data:数据内容格式为麦克风m(m路数据)和参考声 n(n路数据)

3.2 特性

• 适用于多核SoC,AP核负责采集及搬送数据,CP核负责离线语音识别及抛出各类事件
• 提供多种录音数据,方便对接云端语音处理及本地算法问题调试
• 提供LPM接口,方便低功耗管理
• 接入方式简单,最小只需实现数据采集及语音识别部分算法等接口

3.3 接口定义

本地算法初始化

voice_t *voice_ai_init(void *priv, voice_cts_ops_t *ops);

• 参数:
– priv: 用户私有数据
– ops: ai算法实现

• 返回值:
– 0: 成功 非0:失败

typedef struct __voice_cts_ops {
    int (*init)(void *priv);
    int (*deinit)(void *priv);
    int (*aec)(void *priv, void *mic, void *ref, int ms, void *out); //aec算法实现
    int (*vad)(void *priv, void *mic, void *ref, int ms, void *out); //vad算法实现
    int (*kws)(void *priv, void *mic, void *ref, int ms, void *out); //kws算法实现
    int (*asr)(void *priv, void *vad_data, int ms); //asr算法实现
} voice_cts_ops_t;

初始化及去初始化

voice_t *voice_init(voice_evt_t cb, void *priv);
void voice_deinit(voice_t *v);

• 参数:
– cb: voice事件
– priv: 用户私有数
– v: voice 句柄

• 返回值:
– 0: 成功 非0:失败

typedef void (*voice_evt_t)(void *priv, voice_evt_id_t evt_id, void *data, int len);
typedef enum {
    VOICE_ASR_EVT,//asr事件
    VOICE_SILENCE_EVT,//断句事件
    VOICE_DATA_EVT//回流数据到达事件
} voice_evt_id_t;

参数配置

int voice_config(voice_t *v, voice_param_t *p);

• 参数:
– v: voice 句柄
– p: voice参数

• 返回值:
– 0: 成功 非0:失败

typedef struct {
    int cts_ms;//ai算法每次数据大小,单位(ms)
    int ipc_mode;//与ai算法侧的通信方式,1:ipc
} voice_param_t;

拾音参数配置

int voice_add_mic(voice_t *v, voice_pcm_param_t *p);
int voice_add_ref(voice_t *v, voice_pcm_param_t *p);

初始化ai算法模块

• 参数:
– v: voice 句柄
– p:pcm参数

• 返回值:
– 0: 成功 非0:失败

typedef struct {
    char            *pcm_name; //pcm设备名
    unsigned int     rate;//采样率
    int              sample_bits;//采样位数
    int              access;//是否为交错模式,0:非交错 1:交错
    int              channles;//通道总数
    int              channles_sum;//通道总数
    int              period_bytes;//pcm周期数据量(用户不必配置)
} voice_pcm_param_t;

启动(停止)本地算法

int voice_start(voice_t *v);
int voice_stop(voice_t *v);

• 参数:
– v: voice 句柄

• 返回值:
– 0: 成功 非0:失败

数据回流控制

int voice_backflow_control(voice_t *v, voice_backflow_id_t id, int flag);

• 参数:
– v: voice 句柄
– id:数据类型
– flag: 0:关闭回流,1:打开回流

• 返回值:
– 0: 成功 非0:失败

typedef enum {
    VOICE_MIC_DATA,//mic数据
    VOICE_REF_DATA,//ref数据
    VOICE_VAD_DATA,//vad后数据
    VOICE_AEC_DATA,//aec后数据

    VOCIE_BACKFLOW_DATA
} voice_backflow_id_t;
相关文章
|
人工智能 语音技术 Android开发
|
4月前
|
机器学习/深度学习 自然语言处理 机器人
基于深度学习的智能语音机器人交互系统设计方案
**摘要** 本项目旨在设计和实现一套基于深度学习的智能语音机器人交互系统,该系统能够准确识别和理解用户的语音指令,提供快速响应,并注重安全性和用户友好性。系统采用分层架构,包括用户层、应用层、服务层和数据层,涉及语音识别、自然语言处理和语音合成等关键技术。深度学习模型,如RNN和LSTM,用于提升识别准确率,微服务架构和云计算技术确保系统的高效性和可扩展性。系统流程涵盖用户注册、语音数据采集、识别、处理和反馈。预期效果是高识别准确率、高效处理和良好的用户体验。未来计划包括系统性能优化和更多应用场景的探索,目标是打造一个适用于智能家居、医疗健康、教育培训等多个领域的智能语音交互解决方案。
|
机器学习/深度学习 人工智能 自然语言处理
HaaS云端一体智能语音交互方案
智能语音交互作为物联网领域的一个重要生态成员,是一种全新的交互方式,它能够解放双手,随时提供服务,无须借助任何按键。近年来智能家居逐渐走入千家万户,产业市场规模不断增长。智能家居产品种类繁多,很多家庭有着智能门锁、扫地机器人、智能电视、智能洗衣机、智能电冰箱等不同类型的智能家居产品,这些产品需要一个交互性好的控制中心,基于智能语音交互技术的智能音箱脱颖而出。
1197 12
|
人工智能 物联网 芯片
应用速递 | AI智能语音护眼仪方案
应用速递栏目:应用速递是面向IoT厂商推荐芯片开放社区(OCC)上的典型应用案例,便于IoT厂商精准获取方案,快速实现产品落地。
150 0
应用速递 | AI智能语音护眼仪方案
|
人工智能 自然语言处理 小程序
爆肝一周,用Python在物联网设备上写了个智能语音助手-总体方案-《神奇的物联网》
基于HaaS EDU K1物理网开发板,通过数100行Python代码轻松打造一款智能语音助手!
892 0
爆肝一周,用Python在物联网设备上写了个智能语音助手-总体方案-《神奇的物联网》
|
Linux 语音技术 开发工具
开放下载!《无需从0开发 1天上手智能语音离在线方案》
玩转智能生活,平头哥芯片开放社区第二本系列电子书《无需从0开发 1天上手智能语音离在线方案》现已开放下载,立即下载阅读吧!
23758 0
开放下载!《无需从0开发 1天上手智能语音离在线方案》
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44564 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
120 0