Python玩转各种多媒体,视频、音频到图片

简介: 我们经常会遇到一些对于多媒体文件修改的操作,像是对视频文件的操作:视频剪辑、字幕编辑、分离音频、视频音频混流等。又比如对音频文件的操作:音频剪辑,音频格式转换。再比如我们最常用的图片文件,格式转换、各个属性的编辑等。因为多媒体文件的操作众多,本文选取一些极具代表性的操作,以代码的形式实现各个操作。

前言

我们经常会遇到一些对于多媒体文件修改的操作,像是对视频文件的操作:视频剪辑、字幕编辑、分离音频、视频音频混流等。又比如对音频文件的操作:音频剪辑,音频格式转换。再比如我们最常用的图片文件,格式转换、各个属性的编辑等。因为多媒体文件的操作众多,本文选取一些极具代表性的操作,以代码的形式实现各个操作。

一、图片操作

操作图片的模块有许多,其中比较常用的两个就是Pillowopencv,两个模块各有优势。其中opencv是计算机视觉处理的开源模块,应用的范围更加广泛,从图像处理到视频处理,再到物体检测等。而pillow相比直线就单纯的多,其大多数操作都是围绕图像而展开的。

1.1、格式转换

图片格式有多种多样,最直观的感受就是图片后缀。而格式之间的差异不仅仅是后缀的差异,最为明显的就是png格式图片,同其它图片有着最为直观的区别。下面我们就看看在Python中如何转换格式,我们先安装pillow模块:

pip install pillow

然后看看如何导入模块以及如何读取图像:

from PIL import Image
# 读取图像
img = Image.open('ycjc.jpg')
# 显示图像
img.show()

我们有了上面的基础操作之后,就可以开始进行格式转换了,我们用有村大妹子的图片作为素材:

在这里插入图片描述

我们可以看到这是一张白色背景的图片,我们将它转成png看看效果:

from PIL import Image
# 读取图像
img = Image.open('ycjc.jpg')
# 格式转换,其中A为透明度
png = img.convert('RGBA')
# 保存图像,因为是RGBA格式,所以后缀应该为png
png.save('ycjc.png')

输出的图片我就不放了,我们观察输出图片会发现,白色背景好像变透明了。不要怀疑,这只是心理作用,其实图片看上去是不会又任何变化的。但是实际上图片从原来的RGB三个色道变成了RGBA四个色道,我们会发现,图片变大了:

在这里插入图片描述

虽然A色道的透明度全部都是0,但是实际上还是存在这个色道,所以大小方面有了明显的增加。更多转换模式可以产考超全Python图像处理讲解(多图预警)

1.2、图片裁剪

图片裁剪的操作也非常常用,我们来看看pillow如何裁剪图片:

from PIL import Image
# 读取图像
img = Image.open('ycjc.jpg')
# 裁剪图像,调用crop方法,传入裁剪区域的元组
img_crop = img.crop((100, 100, 400, 400))
# 保存裁剪后的图像
img_crop.save('ycjc_crop.jpg')

我们调用crop方法,传入裁剪区域的元组进行裁剪,元组的内容为左上角的坐标(前两个参数)即右下角的坐标(后两个参数)。效果图如下:

在这里插入图片描述

1.3、截屏

虽然算不上是图像操作,但是还是个非常实用的操作。我们实现截屏是通过ImageGrap类实现的:

from PIL import ImageGrab
# 截取全屏
im = ImageGrab.grab()
# 保存图像
im.save('win.png')

除了截取全屏我们也可以区域截屏:

im =ImageGrab.grab((300, 100, 1400, 600))

参数元组含义与crop方法一致。

除了上述操作,还有更多像是添加滤镜、对比度调节、亮度调节、色彩调节等,由于内容众多,所以不在本文详细讨论。

二、音频操作

音频的操作也比较繁多,我们最常用到的就是音频剪辑和音量调节了。我们这里使用pydub模块来进行音频文件的操作。

2.1、pydub的安装以及读取音频

安装我们还是使用pip:

pip install pydub

然后我们来读取一个wav文件:

from pydub import AudioSegment
# 读取wav格式的音频文件
music = AudioSegment.from_wav('百年孤独.wav')

这样我们就完成了音频文件的读取,wav文件是一种未经压缩的文件,我们可以通过pydub直接读取。读取其它类型的文件pydub同样提供了相应的方法:

music = AudioSegment.from_mp3('music.mp3')
music = AudioSegment.from_ogg("music.ogg")
music = AudioSegment.from_flv("music.flv")

因为在实际操作过程中遇到了一个未找明缘由的错误,所以本文的音频操作只针对wav格式。

2.2、音频剪切

音频剪辑的实现我们是通过类似ndarray的中括号操作的:

# 截取前20秒
clip = music[:20*1000]
# 截取后20秒
clip = music[-20000:]
# 从第20秒截取到第40秒
clip = music[20*1000:40*1000]

剪切好的片段我们可以另外存一个文件:

# 保存文件为clip.mp3,格式为mp3
clip.export('clip.mp3', format='mp3')

3.3、增加/减少音量

音量的控制我们只需要用音频对象加一个常数即可:

# 音量减5
music -= 5
# 音量加5
music += 5

3.4、音频拼接

我们先看看重复拼接:

# 在音频文件末尾重复拼接该音频
music = music*2

拼接后的音频的效果就是原音频循环两次。接下来我们看看拼接不同的音频:

# 裁剪前20秒音频
clip1 = music[:20*1000]
# 裁剪后20秒音频
clip2 = music[-20*1000:]
# 拼接音频
clip = clip1 + clip2

3.5、 交叉渐入渐出

交叉渐入渐出是一种比较柔和的音频专场方式,在两个音频切换的间歇会有一个重合,用代码实现如下:

# 截取前20秒
begin = music[20*1000:40*1000]
# 截取后20秒
end = music[-20*1000:]
# 添加交叉渐入渐出 效果
clip = begin.append(end, crossfade=1500)

我们可以看到我们一共裁剪了40秒,在生成的文件我们可以看到只有38秒,因为转场的时候有个重合的效果。当然还有更多的操作,大家可以自己去了解。

三、视频操作

视频的操作可以通过moviepyopencv进行,我们先分别安装两个模块:

pip install opencv-python
pip install moviepy

3.1、视频剪辑

相比之下moviepy操作视频要更便利,我们看看使用moviepy如何剪辑视频:

from moviepy.editor import *
# 剪切视屏bws.mp4中第50秒到第60秒
clip = VideoFileClip('bws.mp4').subclip(50, 60)
# 将剪切的片段保存
clip.write_videofile("clip.mp4")

3.2、提取音频文件

VideoFileClip类中,音频文件作为其中的一个参数,我们可以直接获取:

from moviepy.editor import *
# 读取视频文件
video = VideoFileClip('bws.mp4')
# 获取其中音频
audio = video.audio
# 保存音频文件
audio.write_audiofile('audio.mp3')

3.3、混流

我们还可以将音频同视频混流,在moviepy中,提供了一个读取音频文件的类,我们设置视频的音频需要创建这个类的对象:

from moviepy.editor import *
# 读取视频
video = VideoFileClip('bws.mp4')
# 读取音频
audio = AudioFileClip('百年孤独.mp3')
# 设置视频的音频
video = video.set_audio(audio)
# 保存新的视频文件
video.write_videofile('bws_audio.mp4')

3.4、逐帧提取画面

我们都知道,视频是由一帧一帧的图片组成的,我们也可以将画面一帧一帧提取出来:

import cv2
# 读取视频
video = cv2.VideoCapture('bws.mp4')
# 逐帧读取,当还有画面时ret为True,frame为当前帧的ndarray对象
ret, frame = video.read()
i = 0
# 循环读取
while ret:
    i += 1
    cv2.imwrite('v'+str(i) + '.jpg', frame)
    ret, frame = video.read()

上述代码就能将视屏的每一帧以图片的形式保存下来。

3.5、截取gif

截取gif和截取视频没有什么区别,不过为了减少gif的大小,我们通常会对视频进行尺寸缩放:

from moviepy.editor import *
# 读取视频
video = VideoFileClip('bws.mp4')
# 裁剪视频,并缩小一半
video = video.subclip(20, 30).resize((0.5))
# 保存gif图片
video.write_gif('bws.gif')

在上面subclip方法中,我们可以传入元组,例如:

video.subclip((1, 20), (2, 30))

其含义为从1分20秒截取到2分30秒。

关于多媒体的操作还有很多,到此就实现了一些比较常用,也比较实用的操作,另外还花掉了我几个小时的时间。在排查环境中的错误是确实比较麻烦,但是总归还是实验的全部代码,写作不易啊~另外感兴趣的读者可以关注我的公众号:ZackSock。

目录
相关文章
|
2月前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
32 1
|
2月前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
91 0
|
24天前
|
监控 数据挖掘 数据安全/隐私保护
Python脚本:自动化下载视频的日志记录
Python脚本:自动化下载视频的日志记录
|
1月前
|
数据采集 JSON 数据格式
深入解析:使用Python爬取Bilibili视频
本文介绍了如何使用Python编写脚本自动化下载Bilibili视频。通过requests等库获取视频和音频URL,使用ffmpeg合并音视频文件,最终实现高效下载。注意遵守网站爬虫政策和法律法规。
214 4
|
2月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
165 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
2月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
2月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
28 1
|
人工智能 Python
Python工具:将文件夹下的视频按照帧数输出图片文件(含代码)
Python工具:将文件夹下的视频按照帧数输出图片文件(含代码)
155 0
|
机器学习/深度学习 数据处理 算法框架/工具
下一篇
DataWorks