Freesiwtch VAD语音识别模块参数-开发电话语音机器人

简介: 高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话, 整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间

高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话, 整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间

传统方法最为常见的是音素级别,其次到字发音模型,词级别模型由于每个词都有足够多的训练样本,这往往难以做到,尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强,会偏向于使用拼音、字、词或者wordpiece模型,但也对数据产生较大的依赖。


模型

从目前ASR的发展来看,建议采用end2end的模型,其中有CTC、FSMN、encode-decode,甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。

简单说下怎么采用transformer做ASR,尤其我本身是做NLP的,所以对transformer比较熟悉,这里也推荐大家尝试采用transformer建模,其并行的训练优势确实比RNN要舒服得多,且性能也比RNN要好。那么怎么采用transformer做ASR呢,基本框架是保持不变,只需要将输入从文本切换成语音特征,较为常用的log mel-fbank,这样的话encode的词向量就是不需要的了,decode还是跟原transformer一样做文本输出,目前我采用transformer在中文ASR上能达到95%的准确率


ast_start_asr 说明 ast_start_asr 是一个异步函数, 说话完成自动停止 ,也可以调用ast_sotp_asr 结束识别

ast_start_asr [<configure_name>] [<min_speak_ms>] [<max_speak_ms>] [<min_pause_ms>] [<max_pause_ms>]

configure_name asr配置文件名。可以不同呼叫使用不同的ASR配置。 min_speak_ms 最小说话时间,默认值200,单位毫秒,说话时间小于这个值,会被认为是空音。 max_speak_ms 最大说话时间,默认值10000,单位毫秒,说话时间超过这个值,就停止录音,提交ASR服务器识别。 min_pause_ms 最小停顿时间,默认值300,单位毫秒,默认值用户停顿时间超过这个值,多句话中的一句话完成,发送 ast_asrprogress事件 max_pause_ms 最大停顿时间,默认值600,单位毫秒,用户停顿时间超过这个值,认为一句话说完,所有识别完成后发送ast_asrmessage事件 ast_stop_asr 停止ASR。


Feeswtich 订阅 事件 CUSTOM ast_asrprogress ast_asrmessage

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第一句话。; asrelapse: 394 recordindex:1 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52

recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_1.wav

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrprogress Event-Name: CUSTOM asrtext_sub: 第二句话。; asrelapse: 340 recordindex:2 Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Event-Subclass: ast_asrmessage Event-Name: CUSTOM asrtext: 1.第一句话。;2.第二句话。


; Unique-ID: fe51e722-7210-4f3a-b3a0-fe605344cf52 recordindex:2 recordfile=c:/rec/fe51e722-7210-4f3a-b3a0-fe605344cf52_2.wav

通道变量、提供ASR 状态等通道变量进行有效控制 astyun_speak_ms 说话时长ms astyun_asr_send 识别提交计数器 astyun_asr_back 识别返回计数器

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
21天前
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
81 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
27天前
|
编解码 网络协议 机器人
顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍
大语言模型通常流式返回文字,若一次性TTS会导致严重延迟。通过标点断句或流TTS可实现低延迟的文本到语音转换。本文介绍了电话机器人接口适配流TTS的原理及技术点,包括FreeSWITCH通过WebSocket流TTS放音,以及推流协议和旁路流对接的详细说明。
|
4月前
|
Ubuntu 机器人 语音技术
语音识别与语音控制的原理介绍
硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载音频驱动,设备启动之后只
265 83
|
2月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
35 2
|
2月前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
327 1
|
3月前
|
Ubuntu 机器人 语音技术
语音识别与语音控制
【10月更文挑战第4天】硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载
|
3月前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
58 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
3月前
|
人工智能 安全 机器人
Dify开发Agent对接钉钉机器人
这篇文章详细讲解了如何在Dify平台上开发一个Agent并与钉钉机器人集成,实现自动化消息处理和响应功能。
241 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
聊天机器人开发的最佳实践:技术探索与案例分析
【8月更文挑战第22天】聊天机器人作为人工智能领域的重要应用之一,正逐步改变着人们的生活和工作方式。通过遵循最佳实践和技术探索,开发者可以开发出更加智能、高效、安全的聊天机器人产品。未来,随着技术的不断进步和应用场景的不断拓展,聊天机器人将在更多领域发挥重要作用。
|
5月前
|
人工智能 搜索推荐 安全
从零到一:微信机器人开发的实战心得
从零到一:微信机器人开发的实战心得
318 2

热门文章

最新文章