人工智能-调百度AI语音识别接口教程

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 功能介绍技术领先识别准确

功能介绍

技术领先识别准确

基于Deep Peak2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,近场中文普通话识别准确率达98%

多语种识别

支持普通话和略带口音的中文识别;支持英文识别

智能语言处理

使用大规模数据集训练语言模型,对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!?

多种调用方式

支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用,快速上手,简单易用

毫秒级实时识别音频流

首包响应时间毫秒级,并实时展示中间文字结果,快速识别音频流

文字识别结果支持时间戳

识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发

应用场景

实时语音输入

视频直播字幕

演讲字幕同屏

实时会议记录

课堂音频识别

实时语音输入

语音输入准确高效,解放双手,说话内容实时展示在屏幕上,聊天顺畅

特色优势

识别效果领先

基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98%

支持多设备终端

支持WebSocket API方式、Android、iOS、Linux SDK方式调用,可以适用于多种操作系统、多设备终端均可使用

服务稳定高效

企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定

模型自助优化

中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25% .登陆百度AI的官网

1

2 1.注册:没有账号注册 2.创建应用

1 3.创建应用

1 4.查看应用的ID

1

5.Python代码 1 2 3 4 5 6 7 from aip import AipSpeech

APP_ID = “appid " API_KEY=”**********" SECRET_KEY="**************"

client = AipSpeech(APP_ID,API_KEY,SECRET_KEY) 6.语音识别 1 2 3 4 5 6

语音识别

def speech_sb(file_path_name): os.system(f’ffmpeg -y -i {file_path_name}.m4a -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {file_path_name}.pcm’)

with open(f'{file_path_name}.pcm', 'rb') as fp: return fp.read() 1 2 调用语音识别 ret = client.asr(speech_sb(‘123’), ‘pcm’, 16000, {undefined ‘dev_pid’: 1536, }) 7.语音合成 1 2 3 4 5 6 7 8 9 #语音合成 def speech_hc(title,text):

title是生成文件的标题,text是哟啊合成的文


result = client.synthesis(text) if not isinstance(result, dict): with open(f’{title}.mp3’, ‘wb’) as f: f.write(result) return else: return result 8.自然语言处理加图灵机器人

1 2 3 4 5 6 7 8 9 10 11 12

自然语音的处理 def my_npl(text,id): #传入要对比的文本,id主要用于图灵机器人,

print(nlp_client.simnet(text,“你叫什么名字”).get(‘score’)) if nlp_client.simnet(text,“你叫什么名字”).get(‘score’)>=0.7: ret_name = “我是Sopython,Sopython就是我” return ret_name else: ret_tj = tuling(text,id) if isinstance(ret, dict): ret_tj = ret_tj.get(“results”)[0].get(“values”).get(‘text’) print(ret_tj) return ret_tj
#{‘corpus_no’: ‘6672231296183866724’, ‘err_msg’: ‘success.’, ‘err_no’: 0, ‘result’: [‘叫什么名字’], ‘sn’: ‘90391695291553499907’} ret = my_npl(ret.get(‘result’),132) #

调用完语音识别之后,获取到识别的结果传入自然语言处理,id=132

如果自定义的自然语言处理成功的话,那么就返回自定的结果,否则的话调用图灵机器人来回答问题 最后返回处理的结果, 9.图灵机器人

1 2 1.注册图灵机器人 2.创建机器人

3.Python代码

调用图灵的机器人 def tuling(text, id): data = {undefined “perception”: {undefined “inputText”: {undefined “text”: f"{text}" } }, “userInfo”: {undefined “apiKey”: “a1f6dbf66978411c9127585f7779cd04”, “userId”: f"{id}" } }

res = requests.post("openapi.tuling123.com/openapi/api…", json=data)

print(res.content)


res_json = res.json() return res_json

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5天前
|
人工智能 移动开发 JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
|
4天前
|
人工智能 自动驾驶 机器人
AI元年:2024年人工智能发展大事纪
3分钟了解2024年人工智能AI领域都发生了哪些改变我们生活和生产方式的大事儿。
57 2
AI元年:2024年人工智能发展大事纪
|
4天前
|
人工智能 自然语言处理 算法
打破AI信息差:2024年20款好用的人工智能工具大盘点
本文带你了解20款值得一试的AI工具,帮助你在内容创作、图像设计、音频视频编辑等领域提高效率、激发创意。
47 1
打破AI信息差:2024年20款好用的人工智能工具大盘点
|
11天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
75 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
9天前
|
人工智能 安全 搜索推荐
新手指南:人工智能poe ai 怎么用?国内使用poe记住这个方法就够了!
由于国内网络限制,许多用户在尝试访问Poe AI时面临障碍。幸运的是,现在国内用户也能轻松畅玩Poe AI,告别繁琐的设置,直接开启AI创作之旅!🎉
57 13
|
9天前
|
人工智能 自然语言处理 API
自学记录HarmonyOS Next的HMS AI API 13:语音合成与语音识别
在完成图像处理项目后,我计划研究HarmonyOS Next API 13中的AI语音技术,包括HMS AI Text-to-Speech和Speech Recognizer。这些API提供了强大的语音合成与识别功能,支持多语言、自定义语速和音调。通过这些API,我将开发一个支持语音输入与输出的“语音助手”原型应用,实现从语音指令解析到语音响应的完整流程。此项目不仅提高了应用的交互性,也为开发者提供了广阔的创新空间。未来,语音技术将在无障碍应用和智慧城市等领域展现巨大潜力。如果你也对语音技术感兴趣,不妨一起探索这个充满无限可能的领域。 (238字符)
70 11
|
24天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
72 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
26天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
2月前
|
机器学习/深度学习 人工智能 监控
探索人工智能的伦理困境:我们如何确保AI的道德发展?
在人工智能(AI)技术飞速发展的今天,其伦理问题也日益凸显。本文将探讨AI伦理的重要性,分析当前面临的主要挑战,并提出相应的解决策略。我们将通过具体案例和代码示例,深入理解如何在设计和开发过程中嵌入伦理原则,以确保AI技术的健康发展。
50 11
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。