SenseVoice实现语音转文字

简介: 这篇文章介绍了如何使用SenseVoice实现语音转文字的功能,包括通过Docker部署服务、使用网页界面或API进行语音文件的转换,并提供了详细的部署与使用步骤。

之前使用了阿里的CosyVoice实现了文字生成语音和声音的复刻,这章使用阿里的另一个工具,SenseVoice实现语音转文字,首先需要下载好软件,这里使用docker部署,下载好整合包后:

按照顺序执行

docker load -i sensevoice.tar
docker run -d --name sensevoice --gpus all -p 7860:7860 sensevoice:1   # 有nvidia显卡
docker run -d --name sensevoice -p 7860:7860 sensevoice:1    # 没有nvdia显卡使用cpu运算

部署完成后打开ip+7860,进入首页,可以看到上面一段介绍,下面的左侧是放入的语音消息,右侧是支持的语音类型

添加语音后,会显示语音时长,可以试听以及剪辑等操作,确认无误后,点击Start按钮开始转换,如果语音不长的话很快就完成了,我的电脑没有英伟达显卡,三十个字左右的语音只需要2~3秒就完成了。

同时,SenseVoice也是支持API调用的,可以在页面的下方看到通过API使用的字,点击可以看到开发手册。

以上就是全部内容啦。可以部署好SenseVoice和CosyVoice,再对接下大模型就可以实现语音输入和语音回复了。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
自然语言处理 语音技术 开发者
开源上新|FunASR多语言离线文件转写软件包
开源上新|FunASR多语言离线文件转写软件包
|
语音技术 异构计算
FunASR项目支持实时语音识别
FunASR项目支持实时语音识别【1月更文挑战第7篇】
5193 1
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
5月前
|
缓存 网络安全 语音技术
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
2676 3
|
4月前
|
API 语音技术 Docker
docker 下部署 纯CPU的Nway ASR & TTS
本方案提供基于Docker的纯CPU版Nway语音识别(ASR)与合成(TTS)一体化部署:含定制Dockerfile、多服务启停脚本及Flask HTTP网关,支持RESTful API调用,开箱即用,无需GPU,适配x86 CPU环境。(239字)
276 4
|
6月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
8173 2
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
14561 116
|
人工智能 Linux iOS开发
AI超强语音转文本SenseVoice,本地化部署教程!
【9月更文挑战第7天】以下是AI超强语音转文本工具SenseVoice的本地化部署教程:首先确保服务器或计算机满足硬件和软件要求,包括处理器性能、内存及操作系统等。接着从官网下载适合的安装包,并按操作系统进行安装。配置音频输入设备和语言模型后,启动SenseVoice并测试其语音转文本功能。最后根据实际使用情况进行优化调整,并定期更新以获取最新功能。详细步骤需参照官方文档。
6318 1
|
搜索推荐 语音技术
SenseVoice模型建议
8月更文挑战第4天
1643 1
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
3184 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手