通过 SDK 使用语音识别功能 | 学习笔记

本文涉及的产品
语音服务,语音通知 50分钟
简介: 快速学习 通过 SDK 使用语音识别功能

开发者学堂课程【阿里巴巴智能语音交互技术与应用通过 SDK 使用语音识别功能】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4715


通过 SDK 使用语音识别功能


内容介绍:

一、句话识别 SDK 的接入

二、Java SDK 的介绍


一、一句话识别 SDK 的接入

从智能语音服务的页面接口文档进入,再请点击文档处进入阿里云智能语音服务详情页,即可以看到智能语音服务提供了语音识别、语音合成以及智能对话;

点开语音识别,语音识别提供了一句话识别、实时语音识别、以及录音文件识别等等,一句话识别 SDK 包含了自然语言理解以及语音合成的功能,进入一句话识别页面。

其中一句话识别 SDK 提供了 JavaAndroidiOSC++以及 IOT 设备的 SDK


二、Java SDK 的介绍

Java  SDK 页面提供了 SDK 的下载,一些接口、Domo 演示等

下载 SDK 通过 IDEK 导入项目,这个加入项目是通过 mpom 依赖的方式导入的,依赖了几个其他方提供了的开源包,其中用了 google  gson 来提供 json 的解析服务,用 netty 来提供 websocket 的服务,使用 junit slf4j 来提供日志服务。

1)、Domo 讲解:

AsrDomo 提供了识别 ILU,即语音理解以及语言合成的服务,点击语音识别的 Domo 发现有些报错,是因为没有导入智能语音服务的炸包,通过手动导入的方式加入依赖,此时加入文件已经没有报错了。

此项目是通过读取一个 Domo文 件,短语音服务的输入是16K 或者8K16byte 单声道的 pcm 或者 wav 文件,首先将 Domo 文件通过文件流的方式导入,创建一个链接,配置一些参数,通过不断向服务端发一个请求的方式来发送语音,每8000byte 发送一个包,相当于250毫秒语音在这里需要 sleeve250毫秒(注:如果使用文件读入的方式在这里需要 sleeve;如果使用实时的语音流输入,即一边录音一边调用的方式是不需要 sleeve 的。)

sleeve 的时间相当于每段发送语音包实际长度的时间,等待所有的语音发送结束,需要调用新的 Finish  Signal 向服务端发起一个识别结束的结束服务,通过回调的方式(即 onMessageReceived)获取识别的结果。

用户申请到的 Acess Key ID Acess Key Secret 替换两个参数,点击运行程序,即看到识别结果,这条语音的识别结果是:“你好,小云。”

2)、其他参数的设置

热词相关的配置,需要两个参数,一个是用户的 ID,这个是用户自定义的,另一个人是词表 ID,可以看热词的详细文档,在文档结构里有用户自定义词表,热词的接口是 RESTful,可以通过 POST 上传自定义的热词词表,此处用相关热词格式,在所有识别产品中,都可以应用此表,热词功能是指通过自定义词表可以提高一些词的权重,

例如:一个生僻的人名,设置在热词词表中,它就有很大的概率识别的语音中识别出来。

返回值的设置,setAsrResposeMode,其中参数是 NORMAL STREAMING,返回的文字比较长时设置成 NORMAL的模式,最终返回一个语音的所有的识别结果,若使用 STREMAMING 模式,会识别出一两个字,迭代式返回。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9月前
|
监控 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C#)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C#)
118 0
|
9月前
|
数据采集 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Force IP强制修改网口IP功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用Force IP强制修改网口IP功能(C++)
74 0
|
9月前
|
数据采集 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用ForceIP强制修改网口IP功能(C#)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用ForceIP强制修改网口IP功能(C#)
72 0
|
2月前
|
安全 定位技术 API
婚恋交友系统匹配功能 婚恋相亲软件实现定位 语音社交app红娘系统集成高德地图SDK
在婚恋交友系统中集成高德地图,可实现用户定位、导航及基于地理位置的匹配推荐等功能。具体步骤如下: 1. **注册账号**:访问高德开放平台,注册并创建应用。 2. **获取API Key**:记录API Key以备开发使用。 3. **集成SDK**:根据开发平台下载并集成高德地图SDK。 4. **配置功能**:实现定位、导航及基于位置的匹配推荐。 5. **注意事项**:保护用户隐私,确保API Key安全,定期更新地图数据,添加错误处理机制。 6. **测试优化**:完成集成后进行全面测试,并根据反馈优化功能。 通过以上步骤,提升用户体验,提供更便捷的服务。
|
28天前
|
弹性计算 JSON 自然语言处理
语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能
阿里云智能语音交互产品通过WebSocket协议提供实时语音转写功能,支持长语音。音频流以Binary Frame上传,指令和事件为Text Frame。支持单声道、16 bit采样位数的PCM、WAV等格式,采样率8000Hz/16000Hz。可设置返回中间结果、添加标点、中文数字转阿拉伯数字,并支持多语言识别。服务端通过临时Token鉴权,提供外网和上海ECS内网访问URL。交互流程包括StartTranscription、StopTranscription指令及多种事件反馈。
|
6月前
|
编解码 缓存 开发工具
Pico Neo 3教程☀️ 三、SDK 的进阶功能
Pico Neo 3教程☀️ 三、SDK 的进阶功能
|
6月前
|
编解码 Linux 开发工具
大牛直播SDK跨平台RTMP直播推送模块技术设计和功能列表
大牛直播SDK是一款跨平台RTMP直播推送模块,支持Windows、Linux(x64_64与aarch64架构)、Android及iOS平台。该SDK功能全面,包括摄像头、屏幕、麦克风等数据采集与推送,并支持编码前后数据对接。其架构设计优秀,确保低延迟与高效率,结合SmartPlayer播放器实现毫秒级延迟体验。具备全自研框架,易于扩展且支持多种数据源接入,如外部YUV/RGB/H.264等格式。此外,各平台支持特性丰富,如Windows平台支持多摄像头合成,Android与iOS平台支持前后摄像头实时切换等。大牛直播SDK还提供了多个示例项目以帮助开发者快速上手。
164 0
|
6月前
|
编解码 开发工具 C#
[大牛直播SDK]Windows平台RTMP直播推送模块功能设计
大牛直播SDK采用全自研框架,具备高度可扩展性与自适应算法,显著降低延迟并提高采集编码效率。SDK以模块化设计,支持RTMP推流及多种音视频编码格式(如AAC、SPEEX、H.264、H.265),并能与播放器SDK组合实现丰富功能,包括流媒体转发、内置RTSP服务等。提供了详尽的参数配置选项,支持多摄像头、屏幕采集与水印叠加,并兼容Windows 7及以上操作系统。该SDK以C++/C#双接口形式提供,集成简便,同时包含调试与发布版本库,便于开发者快速上手。此外,支持断网重连、实时预览及多种编码前后的数据对接需求。
|
9月前
|
监控 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取每张图像的微秒时间和FrameID功能(C++)
97 0
|
7月前
|
语音技术 开发者 Python
语音识别,python运行H ~W~,要使用英符,执行Python的流程是输入Python,回车,解释器的两大功能,翻译代码,提交计算机运算,多行代码运行,写一个py文件,pycharm安
语音识别,python运行H ~W~,要使用英符,执行Python的流程是输入Python,回车,解释器的两大功能,翻译代码,提交计算机运算,多行代码运行,写一个py文件,pycharm安

热门文章

最新文章

  • 1
    【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
  • 2
    【08】flutter完成屏幕适配-重建Android,增加GetX路由,屏幕适配,基础导航栏-多版本SDK以及gradle造成的关于fvm的使用(flutter version manage)-卓伊凡换人优雅草Alex-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
  • 3
    【01】完整开发即构美颜sdk的uni官方uts插件—让所有开发者可以直接使用即构美颜sdk的能力-优雅草卓伊凡
  • 4
    VITA-1.5: 迈向GPT-4o级实时视频-语音交互
  • 5
    SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
  • 6
    FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
  • 7
    语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能
  • 8
    GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
  • 9
    昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
  • 10
    Eclipse Oxygen 如何正确配置Java 9 SDK