语音转文字小工具开发Python

简介: 语音转文字小工具开发Python

-- coding: utf-8 --

import requests
import re
import os
import time
from aip import AipSpeech
from tkinter import *
from tkinter import ttk
import tkinter.messagebox

参数 类型 描述 是否必须

tex String 合成的文本,使用UTF-8编码,

请注意文本长度必须小于1024字节 是

cuid String 用户唯一标识,用来区分用户,

填写机器 MAC 地址或 IMEI 码,长度为60以内 否

spd String 语速,取值0-9,默认为5中语速 否

pit String 音调,取值0-9,默认为5中语调 否

vol String 音量,取值0-15,默认为5中音量 否

per String 发音人选择, 0为女声,1为男声,

3为情感合成-度逍遥,4为情感合成-度丫丫,默认为普通女 否

def wordToFileB():

print('开始转文件')
data = word_e.get('1.0','end')
per = var_per.get()
filepath = var_path.get()
num = len(word_e.get('1.0','end'))
var_ws.set('已输入'+str(num)+'字')
#print(data)
#print(per)
#print(filepath)
if num > 500:
    tkinter.messagebox.showwarning('警告','请输入不超过500字')
else:
    wordToFile(data,per,filepath)
    flag = tkinter.messagebox.askokcancel('提示','转语音成功,文件地址'+filepath+'是否播放')
    if flag:
        playFile(filepath)
        
        

def playFileB():

print('开始播放')
playFile(var_path.get())

def playFile(filepath):

os.system(filepath)

def wordToFile(data,per,filepath,spd=5,pit=5,vol=5):

result  = client.synthesis(data, 'zh', 1, {
    'vol': vol,
    'spd':spd,
    'pit':pit,
    'per':per
})
# 识别正确返回语音二进制 错误则返回dict 参照下面错误码
if not isinstance(result, dict):
    with open(filepath, 'wb') as f:
        f.write(result)

tk = Tk()
tk.title('文字转语音')
tk.geometry('600x400')

frame = Frame(tk)
Label(tk,text='请输入文字:(最多输入500字)',width=200,anchor=W, justify=LEFT).place(x=200,y=10)
var_ws = Variable()
wordsize = Label(tk,width=300,textvariable=var_ws,anchor=W, justify=LEFT)
var_ws.set('已输入0字')
wordsize.place(x=365,y=10)

输入文字

var_word = Variable()

word_e = Text(tk,height=14)
word_e.place(x=20,y=40)

Label(tk,text='选择发音(0女声,1为男声,3为情感合成-度逍遥,4为情感合成-度丫丫)').place(x=10,y=240)
var_per = Variable()
e = Entry(tk, textvariable=var_per,width=20)
var_per.set(3)
e.place(x=400,y=240)
Label(tk,text='输入文件路径:').place(x=10,y=270)
var_path = Variable()
e = Entry(tk, textvariable=var_path,width=50)
var_path.set('audio.mp3')
e.place(x=100,y=270)
Label(tk,text='输入语速0-9:').place(x=10,y=300)
var_spd = Variable()
e = Entry(tk, textvariable=var_spd)
var_spd.set(5)
e.place(x=100,y=300)
Label(tk,text='输入音调0-9:').place(x=180,y=300)
var_pit = Variable()
e = Entry(tk, textvariable=var_pit)
var_pit.set(5)
e.place(x=260,y=300)
Label(tk,text='输入音量0-15:').place(x=310,y=300)
var_vol = Variable()
e = Entry(tk, textvariable=var_vol)
var_vol.set(5)
e.place(x=400,y=300)
Button(tk, text="转语音", command=wordToFileB).place(x=200,y=330)
Button(tk, text="播语音", command=playFileB).place(x=260,y=330)
tk.mainloop()

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
数据挖掘 数据安全/隐私保护 开发者
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
83 0
|
6月前
|
人工智能 机器人 UED
AIGC革新,将文字或者LOGO融入AI视频基于PIKA-labs(Python3.10)
很多平台都会禁止用户使用带有网址或者二维码的头像以及文章配图,这样可以有效的防止用户的一些“导流”行为。当然,头像、文章或者视频现在都是AI来审,毕竟现在人工的成本实在太高,但是如果我们把文字元素直接融入图像或者视频之中,如此一来,AI也会很难识别出一些“导流”的元素。 本次我们依靠PIKA-labs平台,无需本地环境,直接简单粗暴输出带有文字元素的光影视频效果,基于Python3.10。
AIGC革新,将文字或者LOGO融入AI视频基于PIKA-labs(Python3.10)
|
3月前
|
机器学习/深度学习 自然语言处理 语音技术
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-ai TTS V2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型,该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外,还引入了对抗损失项,以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成,而无需在任何双语或平行示例上进行训练。
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
|
7月前
|
Python
使用Python将文本转换成语音?
使用Python将文本转换成语音?
121 0
|
7天前
|
机器学习/深度学习 自然语言处理 安全
《Python 语音转换简易速速上手小册》第9章 特定领域的语音处理(2024 最新版)
《Python 语音转换简易速速上手小册》第9章 特定领域的语音处理(2024 最新版)
46 0
|
7天前
|
机器学习/深度学习 自然语言处理 API
《Python 语音转换简易速速上手小册》第4章 语音到文本的转换(2024 最新版)(上)
《Python 语音转换简易速速上手小册》第4章 语音到文本的转换(2024 最新版)
22 0
|
7天前
|
机器学习/深度学习 数据采集 自然语言处理
《Python 语音转换简易速速上手小册》第3章 文本到语音的转换(2024 最新版)(上)
《Python 语音转换简易速速上手小册》第3章 文本到语音的转换(2024 最新版)
23 0
|
7天前
|
机器学习/深度学习 自然语言处理 语音技术
《Python 语音转换简易速速上手小册》第1章 Python语音处理概述(2024 最新版)(下)
《Python 语音转换简易速速上手小册》第1章 Python语音处理概述(2024 最新版)
29 0
|
1月前
|
文字识别 数据挖掘 网络安全
Python实现avif图片转jpg格式并识别图片中的文字
在做数据分析的时候有些数据是从图片上去获取的,这就需要去识别图片上的文字。Python有很多库可以很方便的实现OCR识别图片中的文字。这里介绍用EasyOCR库进行图片文字识别。easyocr是一个比较流行的库,支持超过80种语言,识别率高,速度也比较快。
29 2
|
1月前
|
机器学习/深度学习 搜索推荐 语音技术
个性化语音生成:五种基于Python的方法
个性化语音生成:五种基于Python的方法
41 0