人工智能-调百度AI语音识别接口教程

2022-06-13 623

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 功能介绍技术领先识别准确

功能介绍

技术领先识别准确

基于Deep Peak2端到端建模，超过10万小时数据训练，多采样率多场景声学建模，近场中文普通话识别准确率达98%

多语种识别

支持普通话和略带口音的中文识别；支持英文识别

智能语言处理

使用大规模数据集训练语言模型，对识别中间结果进行智能纠错，并根据语音的内容理解和停顿智能匹配合适的标点符号，。！？

多种调用方式

支持WebSocket API，支持Android、iOS、Linux SDK，可以在多种操作系统、多种设备终端上调用，快速上手，简单易用

毫秒级实时识别音频流

首包响应时间毫秒级，并实时展示中间文字结果，快速识别音频流

文字识别结果支持时间戳

识别返回的文字结果带有时间戳，展示VAD切分句子开始和结束时间，方便进行功能开发

应用场景

实时语音输入

视频直播字幕

演讲字幕同屏

实时会议记录

课堂音频识别

实时语音输入

语音输入准确高效，解放双手，说话内容实时展示在屏幕上，聊天顺畅

特色优势

识别效果领先

基于Deep Peak2端到端建模，多采样率多场景声学建模，近场中文普通话识别准确率达98%

支持多设备终端

支持WebSocket API方式、Android、iOS、Linux SDK方式调用，可以适用于多种操作系统、多设备终端均可使用

服务稳定高效

企业级稳定服务保障，专有集群承载大流量并发，高效灵活，服务稳定

模型自助优化

中文普通话模型可在语音自训练平台上零代码自助训练，上传文本语料即可有效提升业务词汇的识别准确率5-25% .登陆百度AI的官网

2 1.注册:没有账号注册 2.创建应用

1 3.创建应用

1 4.查看应用的ID

5.Python代码 1 2 3 4 5 6 7 from aip import AipSpeech

APP_ID = “appid " API_KEY=”**********" SECRET_KEY="**************"

client = AipSpeech(APP_ID,API_KEY,SECRET_KEY) 6.语音识别 1 2 3 4 5 6

语音识别

def speech_sb(file_path_name): os.system(f’ffmpeg -y -i {file_path_name}.m4a -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {file_path_name}.pcm’)

with open(f'{file_path_name}.pcm', 'rb') as fp: return fp.read() 1 2 调用语音识别 ret = client.asr(speech_sb(‘123’), ‘pcm’, 16000, {undefined ‘dev_pid’: 1536, }) 7.语音合成 1 2 3 4 5 6 7 8 9 #语音合成 def speech_hc(title,text):

title是生成文件的标题,text是哟啊合成的文

result = client.synthesis(text) if not isinstance(result, dict): with open(f’{title}.mp3’, ‘wb’) as f: f.write(result) return else: return result 8.自然语言处理加图灵机器人

1 2 3 4 5 6 7 8 9 10 11 12

自然语音的处理 def my_npl(text,id): #传入要对比的文本,id主要用于图灵机器人,

print(nlp_client.simnet(text,“你叫什么名字”).get(‘score’)) if nlp_client.simnet(text,“你叫什么名字”).get(‘score’)>=0.7: ret_name = “我是Sopython,Sopython就是我” return ret_name else: ret_tj = tuling(text,id) if isinstance(ret, dict): ret_tj = ret_tj.get(“results”)[0].get(“values”).get(‘text’) print(ret_tj) return ret_tj
#{‘corpus_no’: ‘6672231296183866724’, ‘err_msg’: ‘success.’, ‘err_no’: 0, ‘result’: [‘叫什么名字’], ‘sn’: ‘90391695291553499907’} ret = my_npl(ret.get(‘result’),132) #

调用完语音识别之后,获取到识别的结果传入自然语言处理,id=132

如果自定义的自然语言处理成功的话,那么就返回自定的结果,否则的话调用图灵机器人来回答问题最后返回处理的结果, 9.图灵机器人

1 2 1.注册图灵机器人 2.创建机器人

3.Python代码

调用图灵的机器人 def tuling(text, id): data = {undefined “perception”: {undefined “inputText”: {undefined “text”: f"{text}" } }, “userInfo”: {undefined “apiKey”: “a1f6dbf66978411c9127585f7779cd04”, “userId”: f"{id}" } }

res = requests.post("openapi.tuling123.com/openapi/api…", json=data)

print(res.content)

res_json = res.json() return res_json

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

人工智能-调百度AI语音识别接口教程

title是生成文件的标题,text是哟啊合成的文

print(res.content)

热门文章

最新文章

相关课程

相关电子书

相关实验场景