通过 SDK 使用语音识别功能 | 学习笔记

本文涉及的产品
语音服务,语音通知 50分钟
简介: 快速学习 通过 SDK 使用语音识别功能

开发者学堂课程【阿里巴巴智能语音交互技术与应用通过 SDK 使用语音识别功能】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4715


通过 SDK 使用语音识别功能


内容介绍:

一、句话识别 SDK 的接入

二、Java SDK 的介绍


一、一句话识别 SDK 的接入

从智能语音服务的页面接口文档进入,再请点击文档处进入阿里云智能语音服务详情页,即可以看到智能语音服务提供了语音识别、语音合成以及智能对话;

点开语音识别,语音识别提供了一句话识别、实时语音识别、以及录音文件识别等等,一句话识别 SDK 包含了自然语言理解以及语音合成的功能,进入一句话识别页面。

其中一句话识别 SDK 提供了 JavaAndroidiOSC++以及 IOT 设备的 SDK


二、Java SDK 的介绍

Java  SDK 页面提供了 SDK 的下载,一些接口、Domo 演示等

下载 SDK 通过 IDEK 导入项目,这个加入项目是通过 mpom 依赖的方式导入的,依赖了几个其他方提供了的开源包,其中用了 google  gson 来提供 json 的解析服务,用 netty 来提供 websocket 的服务,使用 junit slf4j 来提供日志服务。

1)、Domo 讲解:

AsrDomo 提供了识别 ILU,即语音理解以及语言合成的服务,点击语音识别的 Domo 发现有些报错,是因为没有导入智能语音服务的炸包,通过手动导入的方式加入依赖,此时加入文件已经没有报错了。

此项目是通过读取一个 Domo文 件,短语音服务的输入是16K 或者8K16byte 单声道的 pcm 或者 wav 文件,首先将 Domo 文件通过文件流的方式导入,创建一个链接,配置一些参数,通过不断向服务端发一个请求的方式来发送语音,每8000byte 发送一个包,相当于250毫秒语音在这里需要 sleeve250毫秒(注:如果使用文件读入的方式在这里需要 sleeve;如果使用实时的语音流输入,即一边录音一边调用的方式是不需要 sleeve 的。)

sleeve 的时间相当于每段发送语音包实际长度的时间,等待所有的语音发送结束,需要调用新的 Finish  Signal 向服务端发起一个识别结束的结束服务,通过回调的方式(即 onMessageReceived)获取识别的结果。

用户申请到的 Acess Key ID Acess Key Secret 替换两个参数,点击运行程序,即看到识别结果,这条语音的识别结果是:“你好,小云。”

2)、其他参数的设置

热词相关的配置,需要两个参数,一个是用户的 ID,这个是用户自定义的,另一个人是词表 ID,可以看热词的详细文档,在文档结构里有用户自定义词表,热词的接口是 RESTful,可以通过 POST 上传自定义的热词词表,此处用相关热词格式,在所有识别产品中,都可以应用此表,热词功能是指通过自定义词表可以提高一些词的权重,

例如:一个生僻的人名,设置在热词词表中,它就有很大的概率识别的语音中识别出来。

返回值的设置,setAsrResposeMode,其中参数是 NORMAL STREAMING,返回的文字比较长时设置成 NORMAL的模式,最终返回一个语音的所有的识别结果,若使用 STREMAMING 模式,会识别出一两个字,迭代式返回。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
监控 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C#)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C#)
85 0
|
5月前
|
数据采集 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Force IP强制修改网口IP功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Force IP强制修改网口IP功能(C++)
57 0
|
5月前
|
数据采集 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用ForceIP强制修改网口IP功能(C#)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用ForceIP强制修改网口IP功能(C#)
54 0
|
5月前
|
编解码 监控 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Binning像素合并功能(C#)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Binning像素合并功能(C#)
52 0
|
5月前
|
编解码 监控 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Binning像素合并功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Binning像素合并功能(C++)
84 0
|
2月前
|
编解码 缓存 开发工具
Pico Neo 3教程☀️ 三、SDK 的进阶功能
Pico Neo 3教程☀️ 三、SDK 的进阶功能
|
2月前
|
编解码 Linux 开发工具
大牛直播SDK跨平台RTMP直播推送模块技术设计和功能列表
大牛直播SDK是一款跨平台RTMP直播推送模块,支持Windows、Linux(x64_64与aarch64架构)、Android及iOS平台。该SDK功能全面,包括摄像头、屏幕、麦克风等数据采集与推送,并支持编码前后数据对接。其架构设计优秀,确保低延迟与高效率,结合SmartPlayer播放器实现毫秒级延迟体验。具备全自研框架,易于扩展且支持多种数据源接入,如外部YUV/RGB/H.264等格式。此外,各平台支持特性丰富,如Windows平台支持多摄像头合成,Android与iOS平台支持前后摄像头实时切换等。大牛直播SDK还提供了多个示例项目以帮助开发者快速上手。
|
2月前
|
编解码 开发工具 C#
[大牛直播SDK]Windows平台RTMP直播推送模块功能设计
大牛直播SDK采用全自研框架,具备高度可扩展性与自适应算法,显著降低延迟并提高采集编码效率。SDK以模块化设计,支持RTMP推流及多种音视频编码格式(如AAC、SPEEX、H.264、H.265),并能与播放器SDK组合实现丰富功能,包括流媒体转发、内置RTSP服务等。提供了详尽的参数配置选项,支持多摄像头、屏幕采集与水印叠加,并兼容Windows 7及以上操作系统。该SDK以C++/C#双接口形式提供,集成简便,同时包含调试与发布版本库,便于开发者快速上手。此外,支持断网重连、实时预览及多种编码前后的数据对接需求。
|
5月前
|
监控 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C++)
69 0
|
3月前
|
语音技术 开发者 Python
语音识别,python运行H ~W~,要使用英符,执行Python的流程是输入Python,回车,解释器的两大功能,翻译代码,提交计算机运算,多行代码运行,写一个py文件,pycharm安
语音识别,python运行H ~W~,要使用英符,执行Python的流程是输入Python,回车,解释器的两大功能,翻译代码,提交计算机运算,多行代码运行,写一个py文件,pycharm安