SenseVoice实现语音转文字

简介: 这篇文章介绍了如何使用SenseVoice实现语音转文字的功能,包括通过Docker部署服务、使用网页界面或API进行语音文件的转换,并提供了详细的部署与使用步骤。

之前使用了阿里的CosyVoice实现了文字生成语音和声音的复刻,这章使用阿里的另一个工具,SenseVoice实现语音转文字,首先需要下载好软件,这里使用docker部署,下载好整合包后:

按照顺序执行

docker load -i sensevoice.tar
docker run -d --name sensevoice --gpus all -p 7860:7860 sensevoice:1   # 有nvidia显卡
docker run -d --name sensevoice -p 7860:7860 sensevoice:1    # 没有nvdia显卡使用cpu运算

部署完成后打开ip+7860,进入首页,可以看到上面一段介绍,下面的左侧是放入的语音消息,右侧是支持的语音类型

添加语音后,会显示语音时长,可以试听以及剪辑等操作,确认无误后,点击Start按钮开始转换,如果语音不长的话很快就完成了,我的电脑没有英伟达显卡,三十个字左右的语音只需要2~3秒就完成了。

同时,SenseVoice也是支持API调用的,可以在页面的下方看到通过API使用的字,点击可以看到开发手册。

以上就是全部内容啦。可以部署好SenseVoice和CosyVoice,再对接下大模型就可以实现语音输入和语音回复了。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
算法 前端开发
809. 情感丰富的文字
809. 情感丰富的文字
38 0
|
存储 移动开发 算法
语音识别(ASR)--语音转文字
音识别(Automatic Speech Recognition) 是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
2070 0
|
Web App开发 XML 人工智能
文本转语音如此简单
这两天在研究文本转音的功能,有时候担心自己的普通话不标准,比方说要录制一个视频,即兴讲可能会卡壳,这个时候我们就可以先准备好文本,然后再利用人工智能来生成音频,下面就分享下我的研究成果吧!
1462 0
|
4月前
|
测试技术 语音技术 Android开发
起飞,纯本地实时语音转文字!
起飞,纯本地实时语音转文字!
126 3
|
4月前
|
搜索推荐 算法 Linux
这款文本转语音(TTS)
【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。
342 0
|
6月前
|
算法 数据安全/隐私保护 计算机视觉
图像处理之简单数字水印 - 文字轧花效果
图像处理之简单数字水印 - 文字轧花效果
42 1
|
6月前
|
机器学习/深度学习 文字识别 算法
视觉智能开放平台产品使用合集之文字敏感内容识别和文字违禁内容识别有什么区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
7月前
|
人工智能 机器人 Android开发
ChatGPT新增朗读功能,可以语音播报生成结果
【2月更文挑战第15天】ChatGPT新增朗读功能,可以语音播报生成结果
182 1
ChatGPT新增朗读功能,可以语音播报生成结果
|
机器人 语音技术
神器 | 文本转语音,直接可以合成多人多风格音频了!
为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。
458 1
|
API 语音技术 Python
轻声低语,藏在光芒下的语音转文字模型Whisper
轻声低语,藏在光芒下的语音转文字模型Whisper
1291 0