FFmpeg中的音频文件的封装格式和编码格式-阿里云开发者社区

FFmpeg中的音频文件的封装格式和编码格式

2022-09-13 950

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FFmpeg对于音频文件的封装和编码是非常简单的,欢迎大家深入使用

1. FFmpeg的音频封装格式的学习

MP3是我们在日常生活中最常见的音频格式之一，也是一种音频封装格式。

1.1 查看ffmpeg支持的封装的格式列表

ffmpeg -formats | grep mp3

1.2 ffplay三种不同的模式来播放一个mp3文件

ffplay是以FFMPEG框架为基础，外加SDL构建的多媒体播放器。支持各种格式的音视频的播放，包括各种封装格式的音视频、以及裸音频pcm或者裸yuv数据，也可以设置音视频同步的方式（以音频为基准、以视频为基准、外部时钟）、播放时可以设置循环模式

1.2.1 普通模式

命令如下

ffplay 名称.mp3

播放音频可以通过快捷键w切换显示模式

1.2.2 波形图模式

ffplay -showmode 1 名称.mp3

1.2.3 频谱图模式

ffplay -showmode 2 名称.mp3

2. FFmpeg的音频编码格式的学习

2.1 使用如下命令查看ffmpeg 支持的编码格式列表:

ffmpeg -encoders | grep mp3

2.2 使用如下命令查看ffmpeg 支持的解码格式列表:

3. 音频的常用参数

-aq quality 指定输出音频的质量

-ar rate 指定音频采样率 (单位 Hz)

-ac channels 指定音频声道数量

-an 输出的文件不带音频

-acodec codec 指定输出的音频编码类型('copy' to copy stream)

-vol volume 指定音频的音量 (256=normal)

-af filter_graph 指定音效

-ab 指定输出音频的比特率

4. MP3的文件结构

MP3文件大体上分为三个部分：ID3V2+音频数据+ID3V1

4.1 ID3V2

ID3V2一共有四个版本，ID3V2.1/2.2/2.3/2.4，目前流行的播放软件一般只支持第三版即ID3V2.3，由于ID3V1记录在文件的末尾处，ID3V2就只能记录在文件的首部了，也是因为这个原因，对ID3V2的操作比ID3V1要慢，而且ID3V2的结构比ID3V1的结构复杂的多，但是ID3V2可以记录更多的信息，长度可变

ID3V2.3由一个标签头和若干个标签帧或者一个扩展标签头组成，至少要有一个标签帧，每一个标签帧记录一种信息，例如作曲、标题等

4.1.1 标签头

位于文件开始处，长度为10字节，结构如下：

char Header[3]; (必须为“ID3”否则认为标签不存在)

char Ver; (版本号ID3V2.3 就记录3)

char Revision; (副版本号此版本记录为0)

char Flag; (标志字节，只使用高三位，其它位为0)

char Size[4]; (标签大小)

4.1.2 标签帧

每个标签帧都有10个字节的帧头(和标签头不是一个东西，虽然他们刚好都是10字节，标签头只有一个，每个标签帧都有一个帧头)和至少一个字节的内容构成，标签帧与标签头/其他标签帧无特殊字节分割，只能通过帧头信息来确定帧内容的大小。

帧头长度10字节，定义如下：

char ID[4]; (标识帧，说明其内容，例如作者/标题等)

char Size[4]; (帧内容的大小，不包括帧头，不得小于1)

char Flags[2]; (标志帧，只定义了6 位)

4.2 ID3V1

ID3 V1.0标准并不周全，存放的信息少，无法存放歌词，无法录入专辑封面、图片等。V2.0是一个相当完备的标准，但给编写软件带来困难，虽然赞成此格式的人很多，在软件中真正实现的却极少。绝大多数MP3仍使用ID3 V1.0标准。存在于MP3文件的末位，长度为128字节，包含作者作曲专辑等信息，并非每个MP3文件均存在ID3V1

4.3 音频数据Auido Data

每个帧都有一个帧头，长度是四个字节，帧后面可能有2字节的CRC校验，取决于帧头的第16位，为0则无校验，为1则有校验，后面是可变长度的附加信息，对于标准的MP3文件来说，其长度是32字节，紧接其后的是压缩的声音数据，当解码器读到此处时就进行解码了。

音频数据由一系列的数据帧构成
每帧的长度不一定固定，取决于MP3编码过程中采用CBR和VBR模式，即使在CBR模式下也会存在帧长度不相同的情况
每帧都包含帧头和数据实体两部分
帧头记录了MP3文件的位率，采样率和版本等信息
如果采用CRC校验，则帧头后跟随2字节CRC校验，之后可能存在32字节的附加信息，也可能无附加信息