ffmpeg学习——音频源

简介: ffmpeg学习——音频源

一、abuffer

缓冲音频帧,作为滤镜链图中有效的组成(起点)

它主要编程使用,特别是通过中的接口进行调用。

接受如下参数:

  • time_base:用于提交帧的时间戳时基。是浮点数或者分数形式。
  • sample_rate:进入音频缓冲的采样率。
  • sample_fmt:进入音频缓冲的采样格式。下枚举值中的一个格式名称或者对应的整数
  • channel_layout:进入音频缓冲的通道布局。为中的定义的布局名称或者中 类宏(对应的整数表示)
  • channels:进入缓冲的通道数。如果 和 同时被设置,则二者必须一致。

示例

abuffer=sample_rate=44100:sample_fmt=s16p:channel_layout=stereo

源接受信号立体声(采样率44100HZ)。

采样格式:s16p即6

通道布局:stereo,即0x3

abuffer=sample_rate=44100:sample_fmt=6:channel_layout=0x3

二、aevalsrc

按表达式生成一个音频信号(信号发生器)

它接受一个或者多个表达式(每个对应一个通道),根据表达式计算产生相应的音频信号。

接受如下的选项:

  • exprs:由’|’分隔的表达式列表,每个表达式对应一个通道。以防没有指定选项,选中的通道布局取决于提供的数量表达式。否则最后指定表达式应用于剩下的输出通道。
  • channel_layout, c:设置通道布局。这里的通道数必须等于表达式数量。
  • duration, d:设置源音频持续时间。参考内容以了解语法。注意由此生成的音频持续时间可能会超过这里指定的时间,因为生成的音频最少是一个完整的帧内容。如果不指定,或者指定一个非负数,表面会持续生成音频信号。
  • nb_samples, n:设置每个输出帧中每个通道的样例数量,默认1024。
  • sample_rate, s:指定采样频率,默认44100.

每个表达式可以包含下面的常量:

  • n:评估样本的数量,从0开始计数
  • t:样本时间表示,从0开始计时
  • s:样本采样率

示例

生成静音(无声)

ffmpeg -f lavfi -i aevalsrc=0 -t 10 1.mp3

生成频率为440Hz的正弦波,采样频率8000Hz:

ffmpeg -f lavfi -i aevalsrc="sin(440*2*PI*t):s=8000" -t 10 1.mp3

生成双路信号,这里指定为(中前和中后),表达式为:

ffmpeg -f lavfi -i aevalsrc="sin(420*2*PI*t)|cos(430*2*PI*t):c=FC|BC" -t 10 1.mp3

生成白噪声:

ffmpeg -f lavfi -i aevalsrc="-2+random(0)" -t 10 1.mp3

生成一个振幅调制信号:

ffmpeg -f lavfi -i aevalsrc="sin(10*2*PI*t)*sin(880*2*PI*t)" -t 10 1.mp3

生成2.5赫兹双耳节拍在360赫兹的载体:

ffmpeg -f lavfi -i aevalsrc="0.1*sin(2*PI*(360-2.5/2)*t) | 0.1*sin(2*PI*(360+2.5/2)*t)" -t 10 1.mp3

三、afirsrc

使用频率采样方法生成 FIR 系数。

生成的流可以与过滤器一起用于过滤音频信号。

过滤器接受以下选项:

  • taps, t:在输出音频流中设置过滤器系数的数量。默认值为 1025。
  • frequency, f:设置频率点,从中设置幅度和相位。这必须是非降序,第一个元素必须为 0,最后一个元素必须为 1。元素之间用空格分隔。
  • magnitude, m:为每个频率点设置幅度值频率. 值的数量必须与频点的数量相同。值由空格分隔。
  • phase, p:为每个频率点设置相位值频率. 值的数量必须与频点的数量相同。值由空格分隔。
  • sample_rate, r:设置采样率,默认为 44100。
  • nb_samples, n:设置每帧的样本数。默认值为 1024。
  • win_func, w:设置窗口功能。默认为blackman。

四、anullsrc

null(空)音频源会产生未处理的音频帧。它一般用于分析/调试,或作为滤镜可忽略的输入源(例如合成滤镜)

这个源接受下面选项:

  • channel_layout, cl:指定通道布局,可以是整数或对应的短语,默认为。定义channel_layout[^1]
  • sample_rate, r:采样率,默认 44100。
  • nb_samples, n:每帧的样本数。
  • duration, d:设置源音频持续时间。参考内容以了解语法。注意由此生成的音频持续时间可能会超过这里指定的时间,因为生成的音频最少是一个完整的帧内容。如果不指定,或者指定一个非负数,表面会持续生成音频信号。

示例

以采样率48000 Hz ,单声道().

ffmpeg -f lavfi -i anullsrc=r=44100:cl=4 -t 10 1.mp3
等价于
ffmpeg -f lavfi -i anullsrc=r=44100:cl=mono -t 10 1.mp3

五、flite

使用libflite库合成声音话语。

编译选项是

库不是线程安全的。

接受如下选项:

  • list_voices:如果为1,列出有效的语音并退出,默认0。
  • nb_samples, n:设置每个帧最大样例数量,默认512。
  • textfile:设置要朗读的文件名。
  • text:设置要朗读的文本。
  • voice, v:设置语音合成的声音,默认参考选项

示例

从文件speech.txt读,使用标准声音合成:

flite=textfile=speech.txt

读取指定文本,并用语音合成:

flite=text='So fare thee well, poor devil of a Sub-Sub, whose commentator I am':voice=slt

作为ffmpeg输入:

ffmpeg -f lavfi -i flite=text='So fare thee well, poor devil of a Sub-Sub, whose commentator I am':voice=slt

播放合成语音:

ffplay -f lavfi flite=text='No more be grieved for which that thou hast done.'

更多

关于库的更多信息,确认

六、anoisesrc

产生噪声音频信号。

接受下列选项

  • sample_rate、r:采样率,默认48000HZ。
  • amplitude, a:指定生成的音频流的振幅(0.0 - 1.0)。默认1.0。
  • duration, d:指定生成的音频流的持续时间。不指定此选项会导致噪音的长度无穷大。
  • color, colour, c:指定噪声的颜色。可用的噪声颜色有白色、粉色、棕色、蓝色、紫色和天鹅绒色。默认颜色是白色。
  • seed, s:指定一个用于播种PRNG的值。
  • nb_samples, n:设置每个输出帧的采样数量,默认是1024。

示例

产生60秒的粉色噪声,44.1 kHz的采样率和0.5的振幅:

  • anoisesrc=d=60:c=pink:r=44100:a=0.5
    

七、hilbert

生成odd-tap Hilbert变换FIR系数。

产生的流可以使用滤波器相移信号90度。

这在许多矩阵编码方案和分析信号生成中被使用。这个过程通常被写成乘以虚数单位i(或j)。

过滤器接受以下选项:

  • sample_rate, s:采样率,默认44100。
  • taps, t:设置FIR滤波器长度,默认22051。

  • nb_samples, n:设置每个输出帧的采样数量。

  • win_func, w:设置生成FIR系数时使用的窗口函数。

八、sinc

生成一个音频信号的振幅的正弦波1/8

是一个bit-exact音频信号(脉冲?)

接受如下选项:

  • frequency, f:设置载波频率,默认 440 Hz.
  • beep_factor, b:每个倍载波频率周期产生一个,默认为0,表示被禁止
  • sample_rate, r:指定采样率,默认44100.
  • duration, d:指定产生音频持续时间
  • samples_per_frame:设置每帧样例数,默认1024

示例

产生440Hz的波Generate a simple 440 Hz sine wave:

sine

产生220Hz波,且880Hz产生一个,持续5秒:

sine=220:4:d=5 sine=f=220:b=4:d=5 sine=frequency=220:beep_factor=4:duration=5

附录

channel_layout

static const struct channel_layout_name channel_layout_map[] = {
    { "mono",           AV_CHANNEL_LAYOUT_MONO                }, 
    { "stereo",         AV_CHANNEL_LAYOUT_STEREO              },
    { "2.1",            AV_CHANNEL_LAYOUT_2POINT1             },
    { "3.0",            AV_CHANNEL_LAYOUT_SURROUND            },
    { "3.0(back)",      AV_CHANNEL_LAYOUT_2_1                 },
    { "4.0",            AV_CHANNEL_LAYOUT_4POINT0             },
    { "quad",           AV_CHANNEL_LAYOUT_QUAD                },
    { "quad(side)",     AV_CHANNEL_LAYOUT_2_2                 },
    { "3.1",            AV_CHANNEL_LAYOUT_3POINT1             },
    { "5.0",            AV_CHANNEL_LAYOUT_5POINT0_BACK        },
    { "5.0(side)",      AV_CHANNEL_LAYOUT_5POINT0             },
    { "4.1",            AV_CHANNEL_LAYOUT_4POINT1             },
    { "5.1",            AV_CHANNEL_LAYOUT_5POINT1_BACK        },
    { "5.1(side)",      AV_CHANNEL_LAYOUT_5POINT1             },
    { "6.0",            AV_CHANNEL_LAYOUT_6POINT0             },
    { "6.0(front)",     AV_CHANNEL_LAYOUT_6POINT0_FRONT       },
    { "hexagonal",      AV_CHANNEL_LAYOUT_HEXAGONAL           },
    { "6.1",            AV_CHANNEL_LAYOUT_6POINT1             },
    { "6.1(back)",      AV_CHANNEL_LAYOUT_6POINT1_BACK        },
    { "6.1(front)",     AV_CHANNEL_LAYOUT_6POINT1_FRONT       },
    { "7.0",            AV_CHANNEL_LAYOUT_7POINT0             },
    { "7.0(front)",     AV_CHANNEL_LAYOUT_7POINT0_FRONT       },
    { "7.1",            AV_CHANNEL_LAYOUT_7POINT1             },
    { "7.1(wide)",      AV_CHANNEL_LAYOUT_7POINT1_WIDE_BACK   },
    { "7.1(wide-side)", AV_CHANNEL_LAYOUT_7POINT1_WIDE        },
    { "octagonal",      AV_CHANNEL_LAYOUT_OCTAGONAL           },
    { "hexadecagonal",  AV_CHANNEL_LAYOUT_HEXADECAGONAL       },
    { "downmix",        AV_CHANNEL_LAYOUT_STEREO_DOWNMIX,     },
    { "22.2",           AV_CHANNEL_LAYOUT_22POINT2,           },
};

AVSampleFormat

enum AVSampleFormat {
    AV_SAMPLE_FMT_NONE = -1,
    AV_SAMPLE_FMT_U8,          ///< unsigned 8 bits
    AV_SAMPLE_FMT_S16,         ///< signed 16 bits
    AV_SAMPLE_FMT_S32,         ///< signed 32 bits
    AV_SAMPLE_FMT_FLT,         ///< float
    AV_SAMPLE_FMT_DBL,         ///< double

    AV_SAMPLE_FMT_U8P,         ///< unsigned 8 bits, planar
    AV_SAMPLE_FMT_S16P,        ///< signed 16 bits, planar
    AV_SAMPLE_FMT_S32P,        ///< signed 32 bits, planar
    AV_SAMPLE_FMT_FLTP,        ///< float, planar
    AV_SAMPLE_FMT_DBLP,        ///< double, planar
    AV_SAMPLE_FMT_S64,         ///< signed 64 bits
    AV_SAMPLE_FMT_S64P,        ///< signed 64 bits, planar

    AV_SAMPLE_FMT_NB           ///< Number of sample formats. DO NOT USE if linking dynamically
};

持续时间

它有两种表示方式:

  • 表示小时数,表示分钟数(最多2位数字)表示秒数(也最多2位数字),是的小数位值
  • 是秒的数值,是的小数位值。

两种语法前面都可选号,表示负数持续时间。

[^1]: ## channel_layout

```文件"name"创建在由
static const struct channel_layout_name channel_layout_map[] = {
    { "mono",           AV_CHANNEL_LAYOUT_MONO                }, 
    { "stereo",         AV_CHANNEL_LAYOUT_STEREO              },
    { "2.1",            AV_CHANNEL_LAYOUT_2POINT1             },
    { "3.0",            AV_CHANNEL_LAYOUT_SURROUND            },
    { "3.0(back)",      AV_CHANNEL_LAYOUT_2_1                 },
    { "4.0",            AV_CHANNEL_LAYOUT_4POINT0             },
    { "quad",           AV_CHANNEL_LAYOUT_QUAD                },
    { "quad(side)",     AV_CHANNEL_LAYOUT_2_2                 },
    { "3.1",            AV_CHANNEL_LAYOUT_3POINT1             },
    { "5.0",            AV_CHANNEL_LAYOUT_5POINT0_BACK        },
    { "5.0(side)",      AV_CHANNEL_LAYOUT_5POINT0             },
    { "4.1",            AV_CHANNEL_LAYOUT_4POINT1             },
    { "5.1",            AV_CHANNEL_LAYOUT_5POINT1_BACK        },
    { "5.1(side)",      AV_CHANNEL_LAYOUT_5POINT1             },
    { "6.0",            AV_CHANNEL_LAYOUT_6POINT0             },
    { "6.0(front)",     AV_CHANNEL_LAYOUT_6POINT0_FRONT       },
    { "hexagonal",      AV_CHANNEL_LAYOUT_HEXAGONAL           },
    { "6.1",            AV_CHANNEL_LAYOUT_6POINT1             },
    { "6.1(back)",      AV_CHANNEL_LAYOUT_6POINT1_BACK        },
    { "6.1(front)",     AV_CHANNEL_LAYOUT_6POINT1_FRONT       },
    { "7.0",            AV_CHANNEL_LAYOUT_7POINT0             },
    { "7.0(front)",     AV_CHANNEL_LAYOUT_7POINT0_FRONT       },
    { "7.1",            AV_CHANNEL_LAYOUT_7POINT1             },
    { "7.1(wide)",      AV_CHANNEL_LAYOUT_7POINT1_WIDE_BACK   },
    { "7.1(wide-side)", AV_CHANNEL_LAYOUT_7POINT1_WIDE        },
    { "octagonal",      AV_CHANNEL_LAYOUT_OCTAGONAL           },
    { "hexadecagonal",  AV_CHANNEL_LAYOUT_HEXADECAGONAL       },
    { "downmix",        AV_CHANNEL_LAYOUT_STEREO_DOWNMIX,     },
    { "22.2",           AV_CHANNEL_LAYOUT_22POINT2,           },
};
```
相关文章
|
7月前
|
Windows
【音视频 学习 ffmpeg】环境准备
【音视频 学习 ffmpeg】环境准备
|
2月前
|
编解码 语音技术 内存技术
FFmpeg开发笔记(五十八)把32位采样的MP3转换为16位的PCM音频
《FFmpeg开发实战:从零基础到短视频上线》一书中的“5.1.2 把音频流保存为PCM文件”章节介绍了将媒体文件中的音频流转换为原始PCM音频的方法。示例代码直接保存解码后的PCM数据,保留了原始音频的采样频率、声道数量和采样位数。但在实际应用中,有时需要特定规格的PCM音频。例如,某些语音识别引擎仅接受16位PCM数据,而标准MP3音频通常采用32位采样,因此需将32位MP3音频转换为16位PCM音频。
78 0
FFmpeg开发笔记(五十八)把32位采样的MP3转换为16位的PCM音频
|
3月前
|
Android开发 计算机视觉 C++
FFmpeg开发笔记(五十一)适合学习研究的几个音视频开源框架
音视频编程对许多程序员来说是一片充满挑战的领域,但借助如OpenCV、LearnOpenGL、FFmpeg、OBS Studio及VLC media player等强大的开源工具,可以降低入门门槛。这些框架不仅覆盖了计算机视觉、图形渲染,还包括多媒体处理与直播技术,通过多种编程语言如Python、C++的应用,使得音视频开发更为便捷。例如,OpenCV支持跨平台的视觉应用开发,FFmpeg则擅长多媒体文件的处理与转换,而VLC media player则是验证音视频文件质量的有效工具。
106 0
FFmpeg开发笔记(五十一)适合学习研究的几个音视频开源框架
|
7月前
|
安全 数据处理 数据格式
深入浅出:FFmpeg 音频解码与处理AVFrame全解析(三)
深入浅出:FFmpeg 音频解码与处理AVFrame全解析
326 0
|
6月前
|
Java Linux
ffmpeg音频格式转换、合成、速率调整
ffmpeg音频格式转换、合成、速率调整
126 2
|
7月前
FFmpeg开发笔记(十八)FFmpeg兼容各种音频格式的播放
《FFmpeg开发实战》一书中,第10章示例程序playaudio.c原本仅支持mp3和aac音频播放。为支持ogg、amr、wma等非固定帧率音频,需进行三处修改:1)当frame_size为0时,将输出采样数量设为512;2)遍历音频帧时,计算实际采样位数以确定播放数据大小;3)在SDL音频回调函数中,确保每次发送len字节数据。改进后的代码在chapter10/playaudio2.c,可编译运行播放ring.ogg测试,成功则显示日志并播放铃声。
127 1
FFmpeg开发笔记(十八)FFmpeg兼容各种音频格式的播放
|
7月前
|
缓存 编解码
FFmpeg开发笔记(十四)FFmpeg音频重采样的缓存
FFmpeg在视频流重编码和音频重采样中使用缓存机制。在音频文件格式转换时,特别是对于帧长度不固定的格式如ogg、amr、wma,需处理重采样缓存。通过调用`swr_convert`,传入空输入和0大小来清空缓存。在`swrmp3.c`中,修改帧样本数处理,并在循环结束后添加代码以冲刷缓存。编译并运行程序,将ogg文件重采样为MP3,日志显示操作成功,播放转换后的文件确认功能正常。
153 7
FFmpeg开发笔记(十四)FFmpeg音频重采样的缓存
|
6月前
|
编解码 Python
音频剪裁大师:使用 Python 和 ffmpeg 分割音频的完整指南
使用 Python 和 ffmpeg 进行音频文件分割。通过 `subprocess` 模块调用 ffmpeg 命令,定义 `split_audio` 函数,输入参数包括音频文件、起始时间、持续时间和输出文件名。函数构建命令行指令进行分割,然后执行。运行脚本,即可按指定时间从音频中提取片段。简单易用,适用于多种音频处理场景。
|
7月前
|
存储 编解码 索引
了解FFmpeg音频通道布局结构:AVChannelLayout结构体解析
了解FFmpeg音频通道布局结构:AVChannelLayout结构体解析
253 1
|
7月前
|
人工智能 算法 物联网
声音的变奏:深入理解ffmpeg音频格式转换的奥秘与应用(二)
声音的变奏:深入理解ffmpeg音频格式转换的奥秘与应用
189 0