Freesiwtch VAD语音识别模块参数-开发电话语音机器人-阿里云开发者社区

Freesiwtch VAD语音识别模块参数-开发电话语音机器人

2022-06-12 262

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话，整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间

高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话，整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间

传统方法最为常见的是音素级别，其次到字发音模型，词级别模型由于每个词都有足够多的训练样本，这往往难以做到，尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强，会偏向于使用拼音、字、词或者wordpiece模型，但也对数据产生较大的依赖。

模型

从目前ASR的发展来看，建议采用end2end的模型，其中有CTC、FSMN、encode-decode，甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。

简单说下怎么采用transformer做ASR，尤其我本身是做NLP的，所以对transformer比较熟悉，这里也推荐大家尝试采用transformer建模，其并行的训练优势确实比RNN要舒服得多，且性能也比RNN要好。那么怎么采用transformer做ASR呢，基本框架是保持不变，只需要将输入从文本切换成语音特征，较为常用的log mel-fbank，这样的话encode的词向量就是不需要的了，decode还是跟原transformer一样做文本输出，目前我采用transformer在中文ASR上能达到95%的准确率

ast_start_asr 说明 ast_start_asr 是一个异步函数，说话完成自动停止，也可以调用ast_sotp_asr 结束识别

ast_start_asr [<configure_name>] [<min_speak_ms>] [<max_speak_ms>] [<min_pause_ms>] [<max_pause_ms>]

configure_name asr配置文件名。可以不同呼叫使用不同的ASR配置。 min_speak_ms 最小说话时间，默认值200，单位毫秒，说话时间小于这个值，会被认为是空音。 max_speak_ms 最大说话时间，默认值10000，单位毫秒，说话时间超过这个值，就停止录音，提交ASR服务器识别。 min_pause_ms 最小停顿时间，默认值300，单位毫秒，默认值用户停顿时间超过这个值，多句话中的一句话完成，发送 ast_asrprogress事件 max_pause_ms 最大停顿时间，默认值600，单位毫秒，用户停顿时间超过这个值，认为一句话说完，所有识别完成后发送ast_asrmessage事件 ast_stop_asr 停止ASR。

Feeswtich 订阅事件 CUSTOM ast_asrprogress ast_asrmessage

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第一句话。; asrelapse: 394 recordindex:1 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52

recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_1.wav

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第二句话。; asrelapse: 340 recordindex:2 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrmessage Event-Name: CUSTOM asrtext: 1.第一句话。;2.第二句话。

; Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordindex:2 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav

通道变量、提供ASR 状态等通道变量进行有效控制 astyun_speak_ms 说话时长ms astyun_asr_send 识别提交计数器 astyun_asr_back 识别返回计数器

Freesiwtch VAD语音识别模块参数-开发电话语音机器人

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Freesiwtch VAD语音识别模块参数-开发电话语音机器人

热门文章

最新文章

相关课程

相关电子书

相关实验场景