高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话, 整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间
传统方法最为常见的是音素级别,其次到字发音模型,词级别模型由于每个词都有足够多的训练样本,这往往难以做到,尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强,会偏向于使用拼音、字、词或者wordpiece模型,但也对数据产生较大的依赖。
模型
从目前ASR的发展来看,建议采用end2end的模型,其中有CTC、FSMN、encode-decode,甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。
简单说下怎么采用transformer做ASR,尤其我本身是做NLP的,所以对transformer比较熟悉,这里也推荐大家尝试采用transformer建模,其并行的训练优势确实比RNN要舒服得多,且性能也比RNN要好。那么怎么采用transformer做ASR呢,基本框架是保持不变,只需要将输入从文本切换成语音特征,较为常用的log mel-fbank,这样的话encode的词向量就是不需要的了,decode还是跟原transformer一样做文本输出,目前我采用transformer在中文ASR上能达到95%的准确率
ast_start_asr 说明 ast_start_asr 是一个异步函数, 说话完成自动停止 ,也可以调用ast_sotp_asr 结束识别
ast_start_asr [<configure_name>] [<min_speak_ms>] [<max_speak_ms>] [<min_pause_ms>] [<max_pause_ms>]
configure_name asr配置文件名。可以不同呼叫使用不同的ASR配置。 min_speak_ms 最小说话时间,默认值200,单位毫秒,说话时间小于这个值,会被认为是空音。 max_speak_ms 最大说话时间,默认值10000,单位毫秒,说话时间超过这个值,就停止录音,提交ASR服务器识别。 min_pause_ms 最小停顿时间,默认值300,单位毫秒,默认值用户停顿时间超过这个值,多句话中的一句话完成,发送 ast_asrprogress事件 max_pause_ms 最大停顿时间,默认值600,单位毫秒,用户停顿时间超过这个值,认为一句话说完,所有识别完成后发送ast_asrmessage事件 ast_stop_asr 停止ASR。
Feeswtich 订阅 事件 CUSTOM ast_asrprogress ast_asrmessage
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第一句话。; asrelapse: 394 recordindex:1 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52
recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_1.wav
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第二句话。; asrelapse: 340 recordindex:2 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrmessage Event-Name: CUSTOM asrtext: 1.第一句话。;2.第二句话。
; Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordindex:2 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav
通道变量、提供ASR 状态等通道变量进行有效控制 astyun_speak_ms 说话时长ms astyun_asr_send 识别提交计数器 astyun_asr_back 识别返回计数器