Waston+Python,6行代码实现音频转文字,轻松做字幕~

简介: 6行代码轻松音频转文字

几行代码,抱上IBM爸爸大腿,实现音频快速转文字~用到了IBM Waston的Speech to text(目前还是个demo)

碎碎念的废话~

前几天工作中遇到需要把音频转为文字稿的任务,顺便学了个新词语:扒词。
扒词:根据视频信息获得文字信息,即根据录音或者台词,然后转字幕。

拿音频找导演联系扒词,结果导演居然说视频扒词可以,音频就算了吧,算了吧……!

我可是有30个音频,每个虽然才2-5分钟,但转成文字每个也有近千字吧,总和就是30000字!难道纯手打吗!踹翻导演啊!

科技这么发达,难道找不到音频转文字的软件吗!我于是搜了一下:

image

……天下没有免费的午餐。

感谢万能的知乎!让我找到了IBM 爸爸的Speech to text!

Speech to text官网在这里:
https://speech-to-text-demo.ng.bluemix.net/

准备好你的音频,以及Python,开始吧!!(推荐Anaconda,关于Anaconda安装、Python包的安装,可以看文末我的两篇小笔记~)

第一步

点击首页紫色的那个「Star for free in IBM Cloud」按钮,注册IBM Cloud并登陆(注册不了的亲,记得科学上网)。

第二步

添加服务(因为我已经加了服务,没法给大家截图了,自己找找吧),添加后是这样的:

image

点击现有服务,找到已有的服务。

image

点击服务名称查看详情。

image

看到页面下方显示服务凭证,且username和password都是加密符号表示。点击右侧的「显示」,打开眼睛,把username和password记下来(复制到记事本里啦不要翻小本本了!)

好了,官网任务完成,可以关掉了。

第三步

Python安装SpeechRecognition包。

包的官网:

https://pypi.org/project/SpeechRecognition/

运行-cmd,打开命令提示符。输入pip install SpeechRecognition,耐心等待一会儿(我家里网速比较捉急,花了10分钟……网速好的话几秒钟吧,吐血),安装完成即可。

image

出现下面这行字说明装好了。

image

第四步

打开Jupyter Notebook开始写代码啦!

import speech_recognition as sr #加载包

r = sr.Recognizer()  with sr.WavFile("E://1.mp3") as source:  #请把引号内改成你自己的音频文件路径

   audio = r.record(source)

运行这一步发现报错了。

image

原来要wav格式。推荐一个好用的神器:格式工厂。音频视频文件转格式我都用它,方便小巧。

转格式后把引号里的内容改成1.wav就可以运行了。

接着定义账号密码,把引号里的XXX改成你自己的。

IBM_USERNAME = 'XXXXXXXX'
IBM_PASSWORD= 'XXXXXXXX'

以及调用IBM的Speech to text。

text = r.recognize_ibm(audio, username = IBM_USERNAME, password = IBM_PASSWORD, language = 'zh-CN')

我2分多钟的音频大概运行了半分钟左右吧。这个text,就是你音频转过来的文字了。让我们来试试:

print(text)

image

嗯……虽然准确率没有100%,但也已经比较可观了!!

它支持多种语言,只需要把language变量改成以下这些就可以实现不同语言的转换:

ar-AR 阿根廷语
en-UK 英式英语
en-US 美式英语
es-ES 西班牙语
fr-FR 法语
ja-JP 日语
pt-BR 巴西葡萄牙语
zh-CN 中文

每个免费账户每个月可使用100分钟,30天不活跃服务将删除。

6行代码轻松音频转文字,你学会了嘛?

原文发布时间为:2018-07-18
本文作者:莉莉安的向日葵
本文来自云栖社区合作伙伴“Python爱好者社区 ”,了解相关信息可以关注“Python爱好者社区

相关文章
|
Python
Python音频处理-图解傅里叶分析
傅里叶分析是一种将函数表示为周期成分之和的方法,并通过离散傅里叶变换(DFT)将信号从时域转换到频域,提取频率特征。通过快速傅里叶变换(FFT),我们可分析方波的主要频率成分,并利用这些成分重建波形,直观展示频率域对原始信号的影响。
150 0
|
8月前
|
Python
Python如何给视频添加音频和字幕
通过以上方法和代码示例,你可以在Python中成功实现视频的音频和字幕添加。确保理解每一步的实现细节,应用到实际项目中时能有效地处理各种视频编辑需求。
441 20
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】Python之人工智能应用篇——音频生成技术
音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(text-to-speech)、进行不同语言之间的语音转换、根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。它涵盖了声音结构中的音素、音节、音位、语素等基本单位的预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。 音频生成技术的发展主要依赖于深度学习模型,如循环神经网络(RNN)、长短时记忆网络(LSTM)、Transformer等。这些模型通过学习大量的音频数据,能够自动生成与人类发音相似甚至超越人类水平的音频内容。近年来,随着大规模预训练模型的流行,如GPT系列模型、BERT、T5等,
532 7
【深度学习】Python之人工智能应用篇——音频生成技术
|
编解码 Python
Python如何给视频添加音频和字幕
Python如何给视频添加音频和字幕
|
数据处理 Python
Python在音频传输中的应用实例解析
Python在音频传输中的应用实例解析
192 1
|
存储 编解码 API
分享一个 Python 处理音频的库
分享一个 Python 处理音频的库
251 2
|
人工智能 小程序 API
文字转语音神器+Python编程搞定语音报时小程序
文字转语音神器+Python编程搞定语音报时小程序
215 2
|
API 语音技术 开发者
用python实现文字转语音的5个较好用的模块
这篇文章介绍了五个Python模块:gtts、pyttsx3、baidu-aip、pywin32和speech,它们能够实现文本到语音的转换功能。
1167 1
|
机器学习/深度学习 人工智能 文字识别
轻松识别文字,这款Python OCR库支持超过80种语言
轻松识别文字,这款Python OCR库支持超过80种语言
901 2
|
存储 数据可视化 Python
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
611 0

推荐镜像

更多
下一篇
oss云网关配置