音频基础知识+智能语音控制台介绍 | 学习笔记

简介: 快速学习音频基础知识+智能语音控制台介绍

开发者学堂课程【3节课带你走进智能语音交互音频基础知识+智能语音控制台介绍】学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/748/detail/13213


音频基础知识+智能语音控制台介绍

 

内容介绍

一、概览

二、应用场景

产品与服务

音频概念

、ASR 概念

体验、注册、开通

使用

 

一、概览

1、智能语音交互

阿里智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成等技术为企业在多种实际应用场景下赋予产品“能听、会说、懂你"式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景在金融、保险、司法、电商等多个领域均有应用案例。

2、语音识别

语音识别也称为自动语音识别(Automatic Speech Recognition)简称ASR其目标是将入类语音中的词汇内容转换为可读的文字。

3、语音合成

语音合成也称为自动语音合成(Text To Speech)简称TTS其目

标是将文字转成人的声音。


二、应用场景

image.png

1、法庭庭审转写

将庭审过程中的法官、被告等角色所说的话实时转写成文字,从而替代了书记员的角色。阿里云智能法庭方案已经覆盖上百个法庭,经过千次庭审的洗礼,得到广泛好评。

2、录音质检

传统质检般是对客服电话录音以人工听的方式进行检查,存在效率问题以及人员瓶颈。智能质检能够对所有服务过程进行全量的实时质检,全面把控服务质量。

3、实时直播字幕

现场演讲场景、直播场景下,将视频中的音频实时转写成字幕。在直播场景下,还可以进一步对内容进行监控。实时转写速度极快,几乎与直播同步。比如演讲过程中提供语音翻译演讲是中文实时转写文本后调用语言翻译的功能实时中英会议的场景

4、智能语音问询终端

率先解决在公共场合噪音环境下的语音交互问题,在地铁,餐饮店等公众场景下实现了高体验的语音交互。为用户提供一种全新的,多模态的语音交互方式。


三、产品与服务

image.png

1、句话识别

对时长较短(分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。

2、实时语音识别

对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录,智能语音助手等场景。

3、录音文件识别

对用户,上传的录音文件进行离线识别,上传完之后6小时内完成识别并返回识别文本。可用于呼叫中心语音质检,庭审数据库录入,会议记录总结,医院病历录入等场景。

4、(长文本)语音合成

能将用户提交的文本转换成自然流畅的语音,有多种音色可供选择,并提供调节语速、语调,音量等功能。适用于智能客服、通知、任务播报、新闻播报小说类的合成文学、有声阅读等场景。

5、语音合成声音定制

为客户提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为客户定制个性化语音合成声音。

6、语言模型自学习工具

用户通过上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度。目前支持上传文本数据对语言模型进行定制,未来会推出上传音频数据对声学模型进行定制。


四、音频概念

1、采样率

音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。目前语音识别服务只支持16000Hz和8000Hz两种采样率,其中8000Hz 般是电话业务使用,通过电话说话语音识别的过程,其余都使用16000Hz。其他可能还有6k、44k等等。

2、采样位数

即采样值或取样值。它是用来衡量声音波动变化的一个参数,也可以说是声卡的分辨率。它的数值越大,分辨率也就越高,所发出声音的能力越强。采样精度取决于采样位数的大小,一般来说是2字节即16bit。常见可能还要8bit位数,比如语音电话

3、声道

声道是指声音在录制时在不同空间位置采集的相互独立的音频信号,所以声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道(立体声)。除录音文件识别以外的服务只支持单声道(mono)语音数据。

4、音频编码

指语音数据存储和传输的方式。请注意,语音编码和语音文件格式不同。例如常见的.WAV文件格式,会在其头部定义语音数据的具体编码,其中的音频数据通常是使用PCM编码,但也有可能是AMR或其他编码。其他可能还有电话客服场景下u-law、a-law、mp3、amr、mkv等。组合描述声音的形态比如实时语音识别支持8k或者16k采样率,16bit单声道PCM格式的语音文本转写即支持单声道语音又支持双声道语音等

 

五、ASR 概念

1、逆文本规整(inverse text normalization)

语音转换为文本时使用标准化的格式来展示数字、金额,日期和地址

等对象,以符合阅读习惯或书写形态,简称ITN。比如一千六百八十元开启ITN的识别结果是1680

2、流式中间结果(intermediate result)

在调用语音识别服务时,服务端流式的返回中间识别结果,而不是等

到全部结果识别完成后才返回。比如例如一段语音,识别最终结果是“你好阿里巴巴”, 在启用中间结果后可能如下面所列在您说话的同时返回5次。你你好你好啊你好阿里你好阿里巴巴如果没有开启流式中间结果,它可能只会在全部结果识别完成结束之后只返回一次你好阿里巴巴

3、语音活动检测(Voice Activity Detection,VAD)

语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测。目的是从声音信号流里识别有效语音的开始和结束时间段、剔除长时间的静音数据。在实时语音过程中特别多用它可以将连续不断的语音进行断句直播场景中用户演讲可能一个小时或者两个小时它会把语音进行断句把每一次每一句的结果都返回给调用方

 

六、体验、注册、开通

1、智能语音交互入口

智能语音交互在阿里云公有云的入口地址

https://ai.aliyun.com/nls/

2、语音合成

https://ai.aliyun.com/nls/tts

3、实时语音识别

https://ai.aliyun.com/nls/trans

开通产品介绍

image.png 

在线体验的功能

image.png

试用实时语音识别实时产生音频流式返回结果的过程

image.png

语音合成有比较多的发音场景通用客服文字童声英文方言

image.png

4、在阿里云中开通智能语音交互产品

智能语音交互控制台入口:

https://nls-portal.console.aliyun.com/overview

也可以在阿里云官网直接搜索语音交互跳转进来

(1)注册阿里云账号

(2)实名认证可以进行个人认证也可以进行企业认证个人直接通过支付宝就可以完成认证

(3)开通智能语音交互服务(三个月免费试用版)测试开发都可以进行

以下是控制台界面可以看到创建了15个项目使用了一个语言模型定制用量统计一句话识别实时语音识别语音合成等等

image.png

免费版可以在服务开通与购买中开通做测试上线时最好开通商业版提供更大的开发能力试用版有三个月的有效期有效期过期后就无法再提供服务免费版是有两个并发的限制无法满足产品上线的要求

可以看到项目的创建历史创建的项目

image.png

自学习平台可以用来做语音识别过程中识别率的优化提供热词和语音模型定制两个方式

图片1.png

自动化测试是指可以以比较客观的手段进行识别率的自动化测试做完平台的优化后想观察优化后的效果就可以通过识别率自动化测试进行验证

图片2.png

 

七、使用

接触一个新的产品了解产品什么功能以及使用时怎么去集成这时需要看开发文档分析示例代码学习api

智能语音交互开发文档:

https://help.aliyun.com/product/30413.html

(1)下载sdk及示例代码开发文档比如开发的限制和注意事项等

(2)学习开发文档

(3)测试通过示例代码流程通过示例代码跑通流程完成对公共云上智能语音交互产品的调用

打开文档可以看到有控制台用户指南如何管理项目模型的使用如何开通服务升级后可以购买预付费资源包开发指南开发时的注意事项api细节的介绍一句话识别实时语音识别语音合成进行产品分类的开发介绍

点击一句话识别提供了java sdkpython sdkandroid sdkrestful api等接口方式开发语言的安装包

image.png

以实时识别为例下载安装包

导入 ide 中需要填入两个信息一个是填写你的 appkey一个是填写你的token填写完参数后就可以运行设计代码登陆管控台查看参数点击获取accessToken sdk鼠标放进去会提示此 token 仅供测试使用,存在有效期限制,长期调用请自行更新token, 详见交档

过期后调用就会失效开发过程中可以使用开发完成产品上线时要参考开发文档代码中通过api的形式去集成token动态的更新token点击打开,访问令牌(Access Token)是调用智能语音交互服务的凭证。动态获取token输入

image.png

创建实际的项目获取appkey创建项目,2020-ceshi-appkey。

image.png

选择语音识别的模型类别分为电话和非电话电话是指通过电话接入一些应用应用识别电话端产生的语音

选择电话时采样率都是8k比如中国移动10086,某些省份提供智能语音导航和电话客服机器人进行交互用手机或者固话打电话时就是电话场景比如支付宝电话95188,它也会引导用户接入人机对话的场景

图片3.png

非电话场景包括淘宝app按钮说话,16k的场景通过直播场景演讲场景通过话筒采集语音也是16k的场景有中文普通话英语四川方言湖北方言粤语日语西班牙语选择中文普通话模型因为要测试中文普通话的录音语音合成选择思琪温柔女声通用场景发布上线

图片4.png

发布成功可以看到项目上有appkey复制粘贴进去

图片5.png

运行后识别结果是北京的天气识别代码里面自带的语音语音的内容就是北京的天气

ASR实计识别API调用

通过本场模拟实时流发送

识别耗时计算

通过本地文件进行模拟发送实时流数据实际使用时用户可以从某处实时采集或接收语音流并发送到asr服务端

用读取本地文件的形式模拟实时获取语音流并发送的因为read很快所以这里需要sleep

如果是真正的实时获取语音则无需sleep如果是8k采样率语音第二个参数改为8888

Thread .sleepdeltasleep);

测试SpeechSynthesizerDemo可以看到语音合成日志输出可以看到使用的是siyue合成的文本是欢迎使用阿里巴巴智能语音合成服务您可以说北京明天天气怎么样啊

tts start Latency 79 ms

指的是自己的测试代码连上公共云智能语音服务发送完成请求并且返回花了79ms时间符合预期

Synthesizer.start();

tts first Latency : 218 ms

服务端回调的接口语音合成的语音二进制数据

Public void onmessagebytebuffer message){

此处是计算首包语音流的延迟收到第一包语音流时既可以进行语音播放以提升响应速度特别是实时交互场景下),合成你好阿里巴巴一句话不需要等六个字都合成才播放

tts stop Latency 1241ms

等待语音合成结束会打印stop Latency,时间差比较大

设置siyue假设不知道随便填写一个可以看到显示的信息不一样报了错误信息错误代码是4102001,

图片6.png

可以通过阿里云文档进行查询设置了无效的voice name声音不存在这次的错误代码是以4开头的之前的错误代码是以2开头的比如会以2开头的表示成功,4开头的表示客户端错误,5开头的表示服务端错误比较快速的分析出现的错误缩小排查范围

在控制台获取token点开token提示调用时需要提供阿里云账号的AccessKey IDAccessKey Secret。在用户信息管理里面可以看到AccessKey IDAccessKey Secret。通过它获取tokentoken调用云服务所以可以看到信息是被隐藏起来的

在代码里面集成api动态获取token动态更新调用token以避免token失效

Systen.out.println("Token: "+accessToken.getToken()+",expire time: " . accessToken. getExpireTime());

每次请求token会返回token 的有效期根据这个有效期提前10分钟甚至提前一个小时获取新的有效token更新服务

相关文章
|
4月前
|
数据处理 语音技术
(保姆教程及高级玩法-自定义数据处理)微信同声传译插件-语音识别
(保姆教程及高级玩法-自定义数据处理)微信同声传译插件-语音识别
22 0
|
7月前
|
自然语言处理 机器人 人机交互
智能语音交互概述(一)
智能语音交互概述(一)
122 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
智能语音交互概述(二)
智能语音交互概述(二)
88 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音技术概述
智能语音技术概述
142 0
|
10月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
11月前
|
人工智能 Java 语音技术
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
651 0
|
机器学习/深度学习 编解码 自然语言处理
音频基础知识+智能语音控制台介绍 | 学习笔记
音快速学习频基础知识+智能语音控制台介绍
418 0
音频基础知识+智能语音控制台介绍 | 学习笔记
|
机器学习/深度学习 自然语言处理 达摩院
语音合成简介|学习笔记
快速学习语音合成简介
266 0
语音合成简介|学习笔记
|
存储 编解码 移动开发
视频直播技术概述|学习笔记
快速学习视频直播技术概述
175 0
视频直播技术概述|学习笔记
|
机器学习/深度学习 自然语言处理 前端开发
智能语音交互自学习平台培训 | 学习笔记
简介:快速学习智能语音交互自学习平台培训
271 0
智能语音交互自学习平台培训 | 学习笔记