语音识别与克隆算法（一）

2023-05-18 310

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 语音识别与克隆算法（一）

百度语音简介

百度语音是百度AI开放平台提供的一个在线识别语音引擎。和前面介绍的图形识别一样，都是通过对API的引用，利用百度AI提供的接口进行实现。目前支持的语音包括普通话，粤语，四川话和英语等。利用百度语音进行在线识别的时候，需要上传完整的录音文件，而且语音文件市场不得超过60s。

百度语音提供两种识别模型：搜索模型与输入法模型。搜索模型实现效果如同百度搜索的语音输入，适合短语识别场景，中间有逗号。在应用普通话搜索模型时，也可识别简单的常用英语语句。

百度语音适用于目前追u的多种操作系统和多种编程语言，只要可以对百度语音服务器发起HTTP请求，均可以使用接口。其所支持的语言格式包括：PCM（不压缩），WAV（不压缩，PCM编码），AMR（压缩）。由于百度语音底层识别使用的是PCM编码，因此“.pcm”文件。如果上传文件为其他格式，则会在服务器端被转码为PCM格式，调用接口的耗时会增加。

获取Access Token

使用语音识别及合成的REST API需要获取Access Token。Access Token是用户身份验证和授权的凭证。获取Access Token需要用户在应用管理界面中新建应用，然后在应用列表中即可查看。

语音识别采用的是Client Credentials 授权方式，即应用公钥，密钥获取Access Token，适用于任何带Server类型的应用。通过此授权方式获取Access Token仅可访问平台授权类的接口。

选择HTTP POST亲求格式

如果你的音频文件在本地，可以以JSON和RAW两种格式提交，需要将音频数据放在body中。这两种提交方式，均不属于浏览器表单的提交。

若以JSON格式上传本地文件，则读取Base64编码的二进制音频文件内容，放在speech参数内。使用RAW格式，header：Content-Length的值即音频文件的大小。由于使用RAW方式，采样率和文件格式需要填写在Content-Type中，例如，Content-Type:audio/pcm;rate=16000.

以上两种提交方式都返回统一的结果，并采用JSON格式进行封装。如果识别成功，则识别结果放在JSON的“result”字段中。如果使用（url，callback）方式进行POST请求，百度服务器会回调用户服务器的callback地址。

百度语音识别返回的结果参数

参数	数据类型	是否必填	描述
err_no	int	是	错误码
err_msg	String	是	错误码描述
sn	String	是	语音数据唯一标识
result	Array（[String,String,...]）	否	识别结果数组，提供1~5个候选结果

百度语音识别

百度语音识别Python SDK

百度语音识别Python SDK和REST API功能一致，需要联机在线调用HTTOP接口。前面我们已经介绍过如何创建应用，如何获取账号密钥，这里就不过多介绍了。下面我们介绍一下AipSpeech进行语音识别的示例代码：

from aip import AipSpeech
APP_ID='30847447'
APP_KEY='OEMasN3dTxtq2Pr55duK8qzw'
SECRET_KEY='n7gKdf7VMsz8QEfw0VBZCWG6xdX72qII'
client=AipSpeech(APP_ID,APP_KEY,SECRET_KEY)
def get_file_content(filepath):
    with open(filepath,'rb')as fp:
        return fp.read()
result=client.asr(get_file_content('./test.wav'),'wav',16000,{'dev_pid':1536})
print(result)
{'err_msg': 'request pv too much', 'err_no': 3305, 'sn': '204379690881677639467'}

该结果显示，示例语音识别成功。Python SDK语音识别函数原型为client.asr(speech,format,rate,cuid,dev_pid) ,其参数描述如下：

语音识别函数接口参数及其描述

参数	数据类型	是否必须	描述
speech	buffer	是	建立包含语音类容的Buffer对象，语音文件的格式为.wav,.pcm,.AMR.不区分大小。
format	string	是	语音文件的格式为.PCM,.WAV或者.AMR.不区分大小写。
rate	int	是	采样率，16000，固定值
cuid	string	否	用户唯一标识，用来区分用户，填写计算机MAC地址或IMEI码
dev_pid	int	否	默认为1537（普通话）

dev_pid参数及其描述

dev_pid	语言	模型	是否有标点	备注
1536	普通话（支持简单的语音识别）	搜索模型	无	支持自定义词库
1537	普通话（纯中文识别）	输入法模型	有	不支持自定义词库
1637	粤语		有	不支持自定义词库
1737	英语		有	不支持自定义词库
1837	四川话		有	不支持自定义词库
1936	普通话远场	远场模型	有	不支持自定义词库

基于语音识别的视频文本提取

视频文本信息是视频内容的重要线索，他对视频分段，视频检索和信息摘要等视频自动化处理有着重要的意义。利用AipSpeech语音识别引擎，我们可以很方便地从一个给定的视频文件中提取出其中的语音信息并转化为对应的语言文本。对于音频格式，百度语音识别API对其参数，格式等几个方面有着明确的要求。

①参数：单声道，16000采样率，16bit深度。

②格式：PCM(不压缩)，WAV（不压缩，PCM编码）以及AMR（压缩）。

③其他：完整语音文件，不得超过60秒。

视频文本的提取，主要包括视频转化为音频，音频切割分段，以及从音频中提取文本等几个主要步骤。

从视频转换为所需格式的音频可采用第三方软件来实现，例如，FFmpeg音视频转换软件。因百度API最多支持60s时常的语音识别，我们必须将时长为60s以上的音频文件进行分段，然后进行语音识别，在综合处理输出结果文本。其中，从音频中提取文本，可以利用AipSpeech语音识别引擎来实现。

12db36bc7062f1bc479b1156eb7f0001_15122d1092ae4a5fbec63c27b055fbad.png

在开始编写代码之前，我们需要安装准备好用于音视频转换以及音频分割以及音频分割等相关操作的辅助工具。FFmpeg工具。FFmpeg分为3个版本：Static，Shared和Dev。前两个版本可以直接在命令行中使用，包含3个可执行文件：ffmpeg.exe,ffplay.exe,ffprobe.exe。Static版本中的可执行文件较大，因为相关的动态链接库都已经编译进可执行文件中。Shared版本则小很多，因为在他们运行的时候，还需要相关的动态链接库中调用相应的功能。

下载过后，将其中的bin目录添加到系统变量中“Path”。然后打开控制台，输入ffmpeg命令来运行程序，若无出错信息，则表示配置成功。

那么在python中如何调用FFmpeg喃？

那就需要利用安装命令安装即可。

pip install ffmpy3

以下示例代码实现了从视频文件到指定格式音频文件的转换：

def Video2Audio(file):
    inputfile=file #输入的视频文件
    file_type=file.split('.')[-1]
    outputfile=inputfile.replace(file_type,'wav') #将原视频文件扩展为.wav作为文件名
    ff=FFmpeg(inputs={inputfile:None},global_options=['-y'], #全局参数，'-y'指的是允许覆盖已有文件
            outputs={outputfile:'-vn -ar 16000 -ac 1 -ab 192 -f wav'}  )
    ff.cmd  #打包FFmpeg命令
    ff.run() #执行FFmpeg命令
    return outputfile

获取指定格式的音频文件，需要对其进行音频分割以满足百度语音识别API的处理要求。音频分割的关键是找出每段音频的起始点和结束点。为此，我们需要先获取整个音频文件的总长度，然后以60s文件间隔进行切分，计算出每段音频开始和结束的秒数，并分割为不同的文件进行保存。

def AudioSplit(file):
    inputfile=file #输入文件
    path=os.path.dirname(file)+'./wavefiles/' #指定分割后音频文件的保存目录
    path='./wavefiles'
    print("Audio files segmented into",path)
    wav_len=int(float(mediainfo(inputfile)['duration'])) #获取音频文件时长
    wave=AudioSegment.from_mp3(inputfile)  #音频源文件加载
    seg_file_list=list()
    if wav_len>60:
        n=wav_len//60
        if n*60<wav_len:
            n+=1
    for i in range(n):
        start_time=i*60*1000+1
        END_TIME=(i+1)*60*1000
        if END_TIME>wav_len*1000:
            END_TIME=wav_len*1000
        seg=wave[start_time:END_TIME]
        seg_audio_filename='{}segaudio_{}.wav'.format(path,i)
        seg.export(seg_audio_filename,format='wav')
        seg_file_list.append(seg_audio_filename)
    return seg_file_list

音频分割文件完成后，我们将进入文本提取这个重要环节。l利用AipSpeech语音识别引擎，可轻松实现对语音文件进行文本提取。示例代码如下：

'''
音频撰文本函数
通过Baidu AI提供的ASR SDK对音频文件进行语音识别，并返回识别的文本。
'''
def Audio2Text(wavfile):
    #定义一个用于读取本地音频文件的函数
    def get_file_content(filepath):
        with open(filepath,'rb') as fp:
            return fp.read()
    APP_ID='30847447'
    APP_KEY='OEMasN3dTxtq2Pr55duK8qzw'
    SECRET_KEY='n7gKdf7VMsz8QEfw0VBZCWG6xdX72qII'
    client=AipSpeech(APP_ID,APP_KEY,SECRET_KEY)
    result=client.asr(get_file_content(wavfile),'wav',16000,{'dev_pid':1737})
    return result

对多个音频文件进行文本提取后需要合并得到最终结果。

def TextMerging():
    seg_audio_file_dir="./wavefiles/"
    files=os.listdir(seg_audio_file_dir) #遍历目录下的所有文件
    content=""
    for file in files:
        segaudiofile=seg_audio_file_dir+file
        txt=Audio2Text(segaudiofile)
        content+=str(txt)
    return content

运行该程序，除了少数的文本与原视频不同，但是大多数都很准确。由于对音频分割时，会存在某一个读音被切分在相邻两端音频中的情况，从而在音频到文字的转换阶段产生一定的误差。采取按照语音停顿方式进行分割。

from pydub.silence import split_on_silence
chunks=split_on_silence(sound,min_silence_len=700,silence_thresh=-70)

上述代码中的silence_thresh为语音停顿识别阈值。通过该设定的阈值，我们可以将小于-70dBFS的音频信号是为静音（Silence），而且，当小于-70dBFS的信号超过700ms，则进行语音分割。

语音识别与克隆算法（一）

百度语音简介

获取Access Token

选择HTTP POST亲求格式

百度语音识别

百度语音识别Python SDK

基于语音识别的视频文本提取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

语音识别与克隆算法（一）

百度语音简介

获取Access Token

选择HTTP POST亲求格式

百度语音识别

百度语音识别Python SDK

基于语音识别的视频文本提取

热门文章

最新文章

相关课程

相关电子书

相关实验场景