安信可VC系列语音识别的使用教程

简介: 安信可VC系列语音识别的使用教程

安信可VC-02语音识别的应用,本篇只讲述在Windows系统下的应用。Linux下的请参考官方文档介绍和说明。


1-安信可VC-02离线语音识别简介

VC系列模组是我司开发的一款AI离线语音识别的产品,主芯片是云知声推出的离线语音识别芯片锋鸟M(US516P6),具有高可靠性,通用性强的特点。在语音识别技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。

VC系列模组采用了32bit RISC 架构内核,并加入了专门针对信号处理和语音识别所需要的 DSP 指令集,支持浮点运算的 FPU 运算单元,以及 FFT 加速器。支持最高150 条本地指令离线识别,支持 RTOS 轻量级系统,以及简单友好的客制化工具。

VC系列模组具有丰富的外围接口,包括UART/I2C/PWM/SPI,且能够进行二次开发。

主要应用在控制、智能家居、语音播放等需要语音场所的一些场景。但是这种当然并不是根据个人音色进行判断的,所以任何人的语音都是能够识别的。市面上也有根据音色设计的,但是价格会比较贵。一般情况下,这种就够使用了。


1.1 模组特点

支持中、英文双语控制

单MIC接入

支持AEC回声消除、稳态降噪

支持唤醒词自学习,无需编译固件

综合识别率可达98%以上

识别时间小于100ms

误判率极低

词条语料可达150条


1.2 内核介绍

集成32bit RISC 内核,频率最高至240MHz

支持 DSP 指令集以及 FPU 浮点运算单元

FFT 加速器:最大支持1024 点复数FFT/IFFT 运算,或者是2048 点的实数FFT/IFFT 运算

云知声定制化语音算法算子

内置 242KB高速SRAM

8KB ROM for Boot

内置 2MB SPI FLASH

支持1路模拟Mic输入, SNR≥94db

支持双声道DAC输出

内置5V转3.3V,3.3V转1.2V LDO为芯片供电

提供完整的基于RTOS的SDK.


2-安信可语音开放平台

(因为安信可和智能公元使用的语音芯片都是蜂鸟M系列的,所以这两个平台的语音开放平台是完全可以通用的,下面我就说一下在安信可平台的应用,以及说一下在单片机上如何开发进行一个说明 )

下面是这两个语音开发平台的链接:

安信可

智能公元

其实无论是WIFI、4G、还是IOT等这类模块或者模组,在单片机上开发主要是串口协议下开发,无非就是厂商提供的包头或者包尾不一样,有的甚至可以自定义串口命令,这种应用会更加灵活,开发者可以根据自己的喜好和实际的场景进行一个命令的命名。当然还可以用IIC或者SPI进行开发,不过在十几种最多的还是串口开发。


2.1 准备安信可VC-02套件或者模组

如下面两幅图:

VC-02套件(个人认为无论套件还是模组接个都挺便宜的,模组一个10元,。套件贵一点,不要调试器的话价格是25,这其中包含MIC和腔体喇叭。)


2.2 安信可语音开发平台的使用

第一步都是注册,这个不在说明,按照提示就行,如果注册都不会,我建议你转行。

注册完成之后我们选择创建产品,如下图所示:


2.2.1 产品类型的选择

咱们就以 RGB灯为例,因为我这没有外接其他设备,所以暂时智能识别语音。有条件的可以外接一些设备进行尝试。如下图:


2.2.2 产品场景的选择

因为是离线语音所以在这里我们选择离线方案就好。如下图:


2.2.3 产品的模组选择

因为我购买的是VC-02模组,所以选择VC-02,如果你购买的是VC-01,那就选择01模组。


2.2.4 产品信息的填写

然后就是一些信息的基本填写。最后点击保存就行了


3- 安信可语音SDK功能的配置

在保存后会进入到语音的配置页面,如下图:


3.1 安信可语音SDK前端信号处理

就是一些MIC,识别具体的配置。

前端信号处理需要注意下面两个功能:

1.AEC回声消除:开启之后,可以过滤模组自身播放的声音干扰

2.稳态降噪:开启之后,可以提高环境噪声的干扰。

这两个是不能同时开启的,同时上面这两无论哪个开启都不能开启自动学习命令。

所以为了需要在这里我们不进行开启:如下图:


3.2 安信可语音SDK的Pin 脚配置

就是进行一些引脚的配置,主要就是高低电平,当然有一点需要特别的注意,A28需要设置成低电平

其他根据自己的设计看是高电平还是低电平。

特别注意如果要进行与单片机的二次开发,这里需要设置为TX和RX如下图:波特率要和你单片机设置的波特率一致。


3.3 安信可离线命令词应答

如下图,你可以进行一些应答词的设置,前面行为栏也是自定义的。根据自己的需要来就好。

在完成以上定以后,点击控制详情,如下图:是对引脚的一些动作的设置,如果你仅使用VC02语音模块自带的芯片只需要根据自己的外接设备进行IO口选择就行,如果你是与单片机联合开发需要把这些命令词后面的控制类型都选择为串口传输模式。

以上就是主要的内容,其他的比较简单,这里就不说了。

特别注意的是,智能公元比安信可的开发平台更加好一点,如果你只是需要一些简单的控制选择安信可就行,如果你需要复杂一点的建议选择智能公元找到SU-03T,因为这两个芯片用的都是蜂鸟M系列的,笔者尝试是没有任何问题的。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 语音技术 Windows
语音识别教程:Whisper
本文是一份详细的Whisper语音识别模型使用教程,包括了FFmpeg的安装、Whisper模型的安装与使用,以及如何实现实时录制音频并转录的步骤和代码示例,旨在帮助用户基于Whisper和GPT创建AI字幕。
|
4月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
6月前
|
数据处理 语音技术
(保姆教程及高级玩法-自定义数据处理)微信同声传译插件-语音识别
(保姆教程及高级玩法-自定义数据处理)微信同声传译插件-语音识别
81 0
|
6月前
|
小程序 前端开发 JavaScript
(保姆教程及高级玩法及坑)微信同声传译插件-语音识别
(保姆教程及高级玩法及坑)微信同声传译插件-语音识别
400 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
754 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
662 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
705 0
|
人工智能 Java 语音技术
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
879 0
|
人工智能 自然语言处理 机器人
人工智能-调百度AI语音识别接口教程
功能介绍 技术领先识别准确
|
JSON 编解码 自然语言处理
阿里智能语音交互文档操作教程
ASR :语音识别服务,提供语音转文本服务。 TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。 NLU :自然语言理解服务,提供自然语言处理功能。
1476 0

热门文章

最新文章