四、FFmpeg 编解码及转码
1、FFmpeg 转码全流程简介
FFmpeg 常规处理流程
大流程可以划分为输入、输出、转码、播放四大块
其中转码涉及比较多的处理环节,从图中可以看出,转码功能在整个功能图中占比很大,转码的核心功能在解码和编码两个部分,但在一个可用的示例程序中,编码解码与输入输出是难以分割的。
解复用器为解码器提供输入,解码器会输出原始帧,对原始帧可进行各种复杂的滤镜处理,滤镜处理后的帧经编码器生成编码帧,多路流的编码帧经复用器输出到输出文件。
2、FFmpeg 转码步骤分析
- 解复用
- 从输入文件中读取编码帧,判断流类型,根据流类型将编码帧送入视频解码器或音频解码器。
- 解码
- 将视音频编码帧解码生成原始帧。
- 滤镜
- 提供多种多样的滤镜,用来处理原始帧数据 FFmpeg。
- 编码
- 将原始视音频帧编码生成编码帧。
- 复用
- 将编码帧按不同流类型交织写入输出文件。
五、FFmpeg 特效处理 libavfilter
1、libavfilter 介绍
libavfilter 是 FFmpeg 提供的滤波器类,可以用其做一些音视频处理,如音视频倍速、水平翻转、裁剪、加方框、叠加文字等功能。
例如之前介绍过的音频重采样,视频的像素格式转换,本质上也是滤波,所以 libavfilter 也可以实现 libswresample、libswscale 提供的对音视频格式变换的功能。
2、ffmpeg 添加水印基本流程
这里主要讲述如何利用 ffmpeg 向视频文件添加水印这一功能,文中最后会给出源代码下载地址以及视频下载地址,视频除了讲述添加水印的基本原理以及代码实现,还提到了要注意的一些地方,因为直接运行 demo 源码可能会有问题。
利用 ffmpeg 向视频文件添加水印的基本原理是将视频文件的视频包解码成一帧帧 “Frame”,通过 ffmpeg Filter(overlay)实现待添加水印与 “Frame” 的叠加,最后将叠加后的视频帧进行编码并将编码后的数据写到输出文件里。基本的流程如下图所示:
3、ffmpeg 向视频中添加文字
ffmpeg 支持添加文字能,具体如何将文字叠加到视频中的每一张图片,ffmpeg 调用了文字库 FreeSerif.ttf。
当我们用到 ffmpeg 添加文字功能时我们需要先下载改文字库,下载地址是:
http://www.fonts2u.com/free-serif.font,这算是前期准备工作。
准备工作完成以后,介绍下 ffmpeg 实现视频文件添加文字功能的基本流程,流程图如下图所示:
4、实战测试
首先我们先截取一个 10s 的本地视频文件
ffmpeg -ss 0 -t 10 -i SampleVideo_1280x720_20mb.flv -c copy -f flv -y SampleVideo_1280x720_20mb_10s.flv
回显如下
D:\Work\test>ffmpeg -ss 0 -t 10 -i SampleVideo_1280x720_20mb.flv -c copy -f flv -y SampleVideo_1280x720_20mb_10s.flv ffmpeg version 6.0-essentials_build-www.gyan.dev Copyright (c) 2000-2023 the FFmpeg developers built with gcc 12.2.0 (Rev10, Built by MSYS2 project) configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-fontconfig --enable-iconv --enable-gnutls --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-zlib --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-sdl2 --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-libaom --enable-libopenjpeg --enable-libvpx --enable-mediafoundation --enable-libass --enable-libfreetype --enable-libfribidi --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-ffnvcodec --enable-nvdec --enable-nvenc --enable-d3d11va --enable-dxva2 --enable-libvpl --enable-libgme --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libtheora --enable-libvo-amrwbenc --enable-libgsm --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-librubberband libavutil 58. 2.100 / 58. 2.100 libavcodec 60. 3.100 / 60. 3.100 libavformat 60. 3.100 / 60. 3.100 libavdevice 60. 1.100 / 60. 1.100 libavfilter 9. 3.100 / 9. 3.100 libswscale 7. 1.100 / 7. 1.100 libswresample 4. 10.100 / 4. 10.100 libpostproc 57. 1.100 / 57. 1.100 Input #0, flv, from 'SampleVideo_1280x720_20mb.flv': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf60.3.100 Duration: 00:01:57.31, start: 0.000000, bitrate: 1442 kb/s Stream #0:0: Video: h264 (Main), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1048 kb/s, 25 fps, 25 tbr, 1k tbn Stream #0:1: Audio: aac (LC), 48000 Hz, 5.1, fltp, 383 kb/s Output #0, flv, to 'SampleVideo_1280x720_20mb_10s.flv': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf60.3.100 Stream #0:0: Video: h264 (Main) ([7][0][0][0] / 0x0007), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], q=2-31, 1048 kb/s, 25 fps, 25 tbr, 1k tbn Stream #0:1: Audio: aac (LC) ([10][0][0][0] / 0x000A), 48000 Hz, 5.1, fltp, 383 kb/s Stream mapping: Stream #0:0 -> #0:0 (copy) Stream #0:1 -> #0:1 (copy) Press [q] to stop, [?] for help frame= 250 fps=0.0 q=-1.0 Lsize= 1723kB time=00:00:09.98 bitrate=1414.0kbits/s speed=1.46e+03x video:1244kB audio:467kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.769128% D:\Work\test>
使用 Everything 工具找到 simhei.ttf 将其拷贝到待添加水印的视频目录下
接下来我们在这个 10s 的视频上面添加一个文字跑马灯水印,执行下面命令:
ffmpeg -i SampleVideo_1280x720_20mb_10s.flv -acodec aac -vcodec libx264 -r 30 -g 300 -vf "drawtext=fontfile=simhei.ttf:text='hello world!':x=10:y=h-80:enable=lt(mod(t\,3)\,2):fontsize=50:fontcolor=red@0.5:shadowy=2" -f flv -y SampleVideo_1280x720_20mb_wm2.flv
- -i:设定输入流
- -acodec aac:指定音频 aac 编码
- -vcodec libx264:设定视频编解码器为 libx264
- -r 30:一秒钟播 30 帧
- -g 300:GOP,300 个帧里面才有一个 I 帧
- -vf:视频过滤器
- enable=lt(mod(t,3),2):播放时间对 3 求余数,当小于等于 2 的时候显示,也就是说每 3 秒中显示 2 秒灭 1 秒
- @0.5:透明度
- shadowy=2:阴影
执行后回显如下:
D:\Work\test>ffmpeg -i SampleVideo_1280x720_20mb_10s.flv -acodec aac -vcodec libx264 -r 30 -g 300 -vf "drawtext=fontfile=simhei.ttf:text='你好: hello':x=10:y=h-80:enable=lt(mod(t\,3)\,2):fontsize=50:fontcolor=red@0.5:shadowy=2" -f flv -y SampleVideo_1280x720_20mb_wm2.flv ffmpeg version 6.0-essentials_build-www.gyan.dev Copyright (c) 2000-2023 the FFmpeg developers built with gcc 12.2.0 (Rev10, Built by MSYS2 project) configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-fontconfig --enable-iconv --enable-gnutls --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-zlib --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-sdl2 --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-libaom --enable-libopenjpeg --enable-libvpx --enable-mediafoundation --enable-libass --enable-libfreetype --enable-libfribidi --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-ffnvcodec --enable-nvdec --enable-nvenc --enable-d3d11va --enable-dxva2 --enable-libvpl --enable-libgme --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libtheora --enable-libvo-amrwbenc --enable-libgsm --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-librubberband libavutil 58. 2.100 / 58. 2.100 libavcodec 60. 3.100 / 60. 3.100 libavformat 60. 3.100 / 60. 3.100 libavdevice 60. 1.100 / 60. 1.100 libavfilter 9. 3.100 / 9. 3.100 libswscale 7. 1.100 / 7. 1.100 libswresample 4. 10.100 / 4. 10.100 libpostproc 57. 1.100 / 57. 1.100 Input #0, flv, from 'SampleVideo_1280x720_20mb_10s.flv': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf60.3.100 Duration: 00:00:10.01, start: 0.000000, bitrate: 1411 kb/s Stream #0:0: Video: h264 (Main), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1048 kb/s, 25 fps, 25 tbr, 1k tbn Stream #0:1: Audio: aac (LC), 48000 Hz, 5.1, fltp, 383 kb/s Stream mapping: Stream #0:0 -> #0:0 (h264 (native) -> h264 (libx264)) Stream #0:1 -> #0:1 (aac (native) -> aac (native)) Press [q] to stop, [?] for help Fontconfig error: Cannot load default config file: No such file: (null) [Parsed_drawtext_0 @ 0000020b250b80c0] Using "C:/Windows/fonts\CascadiaCode.ttf" [libx264 @ 0000020b24cce480] using SAR=1/1 [libx264 @ 0000020b24cce480] using cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.2 AVX FMA3 BMI2 AVX2 [libx264 @ 0000020b24cce480] profile High, level 3.1, 4:2:0, 8-bit [libx264 @ 0000020b24cce480] 264 - core 164 r3106 eaa68fa - H.264/MPEG-4 AVC codec - Copyleft 2003-2023 - http://www.videolan.org/x264.html - options: cabac=1 ref=3 deblock=1:0:0 analyse=0x3:0x113 me=hex subme=7 psy=1 psy_rd=1.00:0.00 mixed_ref=1 me_range=16 chroma_me=1 trellis=1 8x8dct=1 cqm=0 deadzone=21,11 fast_pskip=1 chroma_qp_offset=-2 threads=22 lookahead_threads=3 sliced_threads=0 nr=0 decimate=1 interlaced=0 bluray_compat=0 constrained_intra=0 bframes=3 b_pyramid=2 b_adapt=1 b_bias=0 direct=1 weightb=1 open_gop=0 weightp=2 keyint=300 keyint_min=30 scenecut=40 intra_refresh=0 rc_lookahead=40 rc=crf mbtree=1 crf=23.0 qcomp=0.60 qpmin=0 qpmax=69 qpstep=4 ip_ratio=1.40 aq=1:1.00 Output #0, flv, to 'SampleVideo_1280x720_20mb_wm2.flv': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf60.3.100 Stream #0:0: Video: h264 ([7][0][0][0] / 0x0007), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], q=2-31, 30 fps, 1k tbn Metadata: encoder : Lavc60.3.100 libx264 Side data: cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: N/A Stream #0:1: Audio: aac (LC) ([10][0][0][0] / 0x000A), 48000 Hz, 5.1, fltp, 341 kb/s Metadata: encoder : Lavc60.3.100 aac frame= 300 fps=196 q=-1.0 Lsize= 2018kB time=00:00:09.98 bitrate=1655.5kbits/s dup=50 drop=0 speed=6.52x video:1582kB audio:422kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.706711% [libx264 @ 0000020b24cce480] frame I:2 Avg QP:16.30 size: 76289 [libx264 @ 0000020b24cce480] frame P:162 Avg QP:21.71 size: 7884 [libx264 @ 0000020b24cce480] frame B:136 Avg QP:27.74 size: 1392 [libx264 @ 0000020b24cce480] consecutive B-frames: 28.0% 32.7% 6.0% 33.3% [libx264 @ 0000020b24cce480] mb I I16..4: 22.7% 32.6% 44.7% [libx264 @ 0000020b24cce480] mb P I16..4: 0.9% 1.5% 0.2% P16..4: 28.7% 7.2% 3.6% 0.0% 0.0% skip:58.0% [libx264 @ 0000020b24cce480] mb B I16..4: 0.1% 0.1% 0.0% B16..8: 28.1% 0.8% 0.1% direct: 0.2% skip:70.7% L0:48.3% L1:49.7% BI: 2.0% [libx264 @ 0000020b24cce480] 8x8 transform intra:49.5% inter:54.9% [libx264 @ 0000020b24cce480] coded y,uvDC,uvAC intra: 51.3% 66.0% 23.6% inter: 7.1% 9.2% 0.5% [libx264 @ 0000020b24cce480] i16 v,h,dc,p: 28% 31% 11% 30% [libx264 @ 0000020b24cce480] i8 v,h,dc,ddl,ddr,vr,hd,vl,hu: 26% 22% 20% 4% 6% 6% 5% 5% 6% [libx264 @ 0000020b24cce480] i4 v,h,dc,ddl,ddr,vr,hd,vl,hu: 22% 14% 11% 8% 8% 9% 7% 12% 7% [libx264 @ 0000020b24cce480] i8c dc,h,v,p: 51% 20% 21% 8% [libx264 @ 0000020b24cce480] Weighted P-Frames: Y:0.0% UV:0.0% [libx264 @ 0000020b24cce480] ref P L0: 81.7% 11.4% 5.9% 1.0% [libx264 @ 0000020b24cce480] ref B L0: 95.0% 4.8% 0.2% [libx264 @ 0000020b24cce480] ref B L1: 98.3% 1.7% [libx264 @ 0000020b24cce480] kb/s:1295.36 [aac @ 0000020b250d0b80] Qavg: 1102.865
可以看到本地生成了一个 SampleVideo_1280x720_20mb_wm2.flv 文件
打开视频可以看到左下角 hello world 闪烁效果







