开发者社区云计算文章正文

语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805，ffmpeg是专门处理音视频的，ffmpeg的下载链接，现在要求安装python和ffmpeg

2024-07-03 28

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805，ffmpeg是专门处理音视频的，ffmpeg的下载链接，现在要求安装python和ffmpeg

视频资料链接:

免费开源的语音转文本软件Whisper的本地搭建详细教程_哔哩哔哩_bilibili

博主的博客地址：

https://blog.lukeewin.top

github中的Whisper链接地址：

他不但是支持GPU进行运算，他还支持CPU进行运算

他用的是3.9.9训练的模型

运行一条命令就可以

配置前的使用环境：第一步安装Python

第一步先到Python的官网

安装的时候选择安装器

安装完成输入python -v 检验是否成功

python安装环境可以参考，知行达摩院的文章

第二步ffmpeg是从视频中分离转录成音频

第三步：

ffmpeg的github下载地址

不喜欢执行版本可以选择他，Releases

之前跟新的版本都有

安装显卡驱动：

输入ffmpeg回车

文章标签：

智能语音交互

Python

语音技术

异构计算

达摩院

关键词：

Python安装

Python下载

Python语音识别

Python下载安装

ffmpeg安装

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

爱你三千遍斯塔克

2天前

语音技术 Python

语音识别，python字面量，注释，变量，python变量的格式是变量名 = 变量值，加减乘除的输入方式

爱你三千遍斯塔克

14 5 5

爱你三千遍斯塔克

2天前

语音技术数据安全/隐私保护 Python

语音识别---数据输入(input语句)，布尔类型和比较运算符,if语句的基本格式，Python通过空格缩进来判断代码块的归属关系，我要买票吗讲解？if_elif_else

爱你三千遍斯塔克

14 0 0

爱你三千遍斯塔克

2天前

语音技术开发者 Python

语音识别，python运行H ~W~，要使用英符，执行Python的流程是输入Python，回车,解释器的两大功能，翻译代码，提交计算机运算，多行代码运行，写一个py文件,pycharm安

爱你三千遍斯塔克

4 0 0

aqi00

6天前

编解码

FFmpeg开发笔记（三十三）分析ZLMediaKit对H.264流的插帧操作

《FFmpeg开发实战》书中3.4.3节讲解如何将H.264流封装成MP4。H.264流通常以SPS→PPS→IDR帧开始，这一说法通过雷霄骅的H264分析器得到验证。分析器能解析H.264文件但不支持MP4。ZLMediaKit服务器在遇到I帧时会自动插入SPS和PPS配置帧，确保流符合标准格式。若缺少这些帧，客户端拉流时会报错。FFmpeg开发实战：从零基础到短视频上线》书中提供了更多FFmpeg开发细节。

aqi00

20 0 0

aqi00

12天前

编解码 Java Android开发

FFmpeg开发笔记（三十一）使用RTMP Streamer开启APP直播推流

RTMP Streamer是一款开源的安卓直播推流框架，支持RTMP、RTSP和SRT协议，适用于各种直播场景。它支持H264、H265、AV1视频编码和AAC、G711、OPUS音频编码。本文档介绍了如何使用Java版的RTMP Streamer，建议使用小海豚版本的Android Studio (Dolphin)。加载项目时，可添加国内仓库加速依赖下载。RTMP Streamer包含五个模块：app、encoder、rtmp、rtplibrary和rtsp。完成加载后，可以在手机上安装并运行APP，提供多种直播方式。开发者可以从《FFmpeg开发实战：从零基础到短视频上线》获取更多信息。

aqi00

45 7 8

aqi00

14天前

存储编解码

FFmpeg开发笔记（三十）解析H.264码流中的SPS帧和PPS帧

《FFmpeg开发实战》书中介绍了音视频编码历史，重点讲述H.264的成功在于其分为视频编码层和网络抽象层。H.264帧类型包括SPS(序列参数集，含视频规格参数)，PPS(图像参数集，含编码参数)和IDR帧(立即解码刷新，关键帧)。SPS用于计算视频宽高和帧率，PPS存储编码设置，IDR帧则标志新的解码序列。书中还配以图片展示各帧结构详情，完整内容可参考相关书籍。

aqi00

42 7 7

aqi00

21天前

编解码 Linux

FFmpeg开发笔记（二十八）Linux环境给FFmpeg集成libxvid

XviD是开源的MPEG-4视频编解码器，曾与DivX一起用于早期MP4视频编码，但现在已被H.264取代。要集成XviD到Linux上的FFmpeg，首先下载源码，解压后配置并编译安装libxvid。接着，在FFmpeg源码目录中，重新配置FFmpeg以启用libxvid，然后编译并安装。成功后，通过`ffmpeg -version`检查是否启用libxvid。详细步骤包括下载、解压libxvid，使用`configure`和`make`命令安装，以及更新FFmpeg配置并安装。

aqi00

38 2 2

aqi00

25天前

移动开发小程序视频直播

FFmpeg开发笔记（二十七）解决APP无法访问ZLMediaKit的直播链接问题

本文讲述了在使用ZLMediaKit进行视频直播时，遇到移动端通过ExoPlayer和微信小程序播放HLS直播地址失败的问题。错误源于ZLMediaKit对HTTP地址的Cookie校验导致401无权限响应。通过修改ZLMediaKit源码，注释掉相关鉴权代码并重新编译安装，解决了此问题，使得ExoPlayer和小程序能成功播放HLS视频。详细解决方案及FFmpeg集成可参考《FFmpeg开发实战：从零基础到短视频上线》一书。

aqi00

43 3 3

FFmpeg开发笔记（二十七）解决APP无法访问ZLMediaKit的直播链接问题

aqi00

26天前

Web App开发安全 Linux

FFmpeg开发笔记（二十六）Linux环境安装ZLMediaKit实现视频推流

《FFmpeg开发实战》书中介绍轻量级流媒体服务器MediaMTX，但其功能有限，不适合生产环境。推荐使用国产开源的ZLMediaKit，它支持多种流媒体协议和音视频编码标准。以下是华为欧拉系统下编译安装ZLMediaKit和FFmpeg的步骤，包括更新依赖、下载源码、配置、编译、安装以及启动MediaServer服务。此外，还提供了通过FFmpeg进行RTSP和RTMP推流，并使用VLC播放器拉流的示例。

aqi00

42 3 3

FFmpeg开发笔记（二十六）Linux环境安装ZLMediaKit实现视频推流

aqi00

27天前

编解码 Linux

FFmpeg开发笔记（二十五）Linux环境给FFmpeg集成libwebp

《FFmpeg开发实战》书中指导如何在Linux环境下为FFmpeg集成libwebp以支持WebP图片编解码。首先，从GitHub下载libwebp源码，解压后通过`libtoolize`，`autogen.sh`，`configure`，`make -j4`和`make install`步骤安装。接着，在FFmpeg源码目录中重新配置并添加`--enable-libwebp`选项，然后进行`make clean`，`make -j4`和`make install`以编译安装FFmpeg。最后，验证FFmpeg版本信息确认libwebp已启用。

aqi00

42 1 1

语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805，ffmpeg是专门处理音视频的，ffmpeg的下载链接，现在要求安装python和ffmpeg

视频资料链接:

https://blog.lukeewin.top

github中的Whisper链接地址：

他不但是支持GPU进行运算，他还支持CPU进行运算

他用的是3.9.9训练的模型

运行一条命令就可以

配置前的使用环境：第一步安装Python

第一步先到Python的官网

安装的时候选择安装器

安装完成输入python -v 检验是否成功

python安装环境可以参考，知行达摩院的文章

第二步ffmpeg是从视频中分离转录成音频

第三步：

ffmpeg的github下载地址

不喜欢执行版本可以选择他，Releases

之前跟新的版本都有

安装显卡驱动：

输入ffmpeg回车

热门文章

最新文章

相关课程

相关电子书

相关实验场景