深入解析:使用Python爬取Bilibili视频

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 本文介绍了如何使用Python编写脚本自动化下载Bilibili视频。通过requests等库获取视频和音频URL,使用ffmpeg合并音视频文件,最终实现高效下载。注意遵守网站爬虫政策和法律法规。

深入解析:使用Python爬取Bilibili视频

引言

Bilibili,作为中国领先的年轻人文化社区,拥有海量的视频资源。对于想要下载Bilibili视频的用户来说,手动下载不仅费时费力,而且效率低下。本文将介绍如何使用Python编写一个脚本,自动化地爬取Bilibili上的视频,并将其保存到本地。

环境准备

在开始之前,请确保你已经安装了以下Python库:

  • requests:用于发送HTTP请求。
  • json:用于解析JSON数据。
  • re:用于正则表达式匹配。
  • os:用于操作系统功能,如文件路径操作。
  • subprocess:用于执行外部命令,如调用ffmpeg。
  • sys:用于访问与Python解释器密切相关的变量和函数。

可以通过以下命令安装所需的库:

pip install requests

代码解析

1. 导入必要的库

import requests
import json
import pprint
import re
import os
import subprocess
import sys

2. 获取URL响应体

定义一个函数getResponse,用于发送GET请求并获取响应体。

def getResponse(url):
    headers = {
   
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 ...'
    }
    response = requests.get(url=url, headers=headers)
    return response

3. 解析响应体

定义函数parseResponse,用于解析视频页面的响应体,并提取视频和音频的URL。

def parseResponse(url):
    # ... 省略部分代码 ...
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title ...', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
   
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    return videoInfo

4. 保存视频和音频

定义函数saveMedia,用于将下载的媒体内容保存到本地文件。

def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', 'wb') as f:
        f.write(content)

5. 合并音频和视频

定义函数AvMerge,使用ffmpeg合并音频和视频文件。

def AvMerge(Mp3Name, Mp4Name, savePath):
    # 使用subprocess调用ffmpeg合并音频和视频
    subprocess.run(['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', ...])

6. 主函数

main函数是脚本的入口点,负责调用上述函数完成整个爬取和保存流程。

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # ... 省略部分代码 ...
    AvMerge(Mp3Name, Mp4Name, savePath)

结语

通过上述脚本,我们可以实现自动化下载Bilibili视频的功能。这不仅大大提升了下载效率,也让我们对Python网络编程有了更深入的理解。请注意,爬虫的使用应遵守网站的爬虫政策和法律法规,合理使用爬虫技术。

代码结果

注意事项

  • 确保在合法合规的前提下使用爬虫技术。
  • 尊重视频作者的版权,不要用于商业用途。
  • 考虑到Bilibili网站的反爬措施,可能需要更新请求头或使用代理。

附录


本文提供了一个基于Python的Bilibili视频爬取方案,希望能够帮助到有需要的朋友。如果你有任何问题或建议,请随时与我联系。

完整代码:


import requests
import json
import pprint
import re
import os
import subprocess
import sys

"""获取url响应体"""
def getResponse(url):
    # 设置请求头
    headers = {
   
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    # 发起get请求
    response = requests.get(url=url, headers=headers)
    return response

"""解析响应体"""
def parseResponse(url):
    # 获取url响应体
    response = getResponse(url)
    # 用正则表达式取出返回的视频数据
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    # 解析成json数据
    jsonData = json.loads(html_data)
    # 获取视频标题
    videoTitle = re.findall('<title data-vue-meta="true">(.*?)</title>', response.text)[0]
    # 获取音频
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    # 获取视频
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    # 封装视频信息
    videoInfo = {
   
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    print("获取Response信息成功!")
    return videoInfo

"""保存视频和音频"""
def saveMedia(fileName, content, mediaType):
    # 创建目录(如果不存在)
    os.makedirs('D:\\bilibili', exist_ok=True)
    # 写入文件
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', mode='wb') as f:
        f.write(content)
    print(f"保存{mediaType}成功!")

def AvMerge(Mp3Name, Mp4Name, savePath):
    print("开始合并音频和视频.........")
    print(f"音频文件: {Mp3Name}")
    print(f"视频文件: {Mp4Name}")
    print(f"合并后文件保存路径: {savePath}")

    # 使用subprocess来调用ffmpeg,并重定向输出
    with open(os.devnull, 'w') as devnull:
        result = subprocess.run(
            ['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', savePath],
            stdout=devnull,
            stderr=devnull
        )

    print("合并成功!")
    os.remove(Mp3Name)
    os.remove(Mp4Name)

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # 获取视频标题
    fileName = videoInfo['videoTitle']
    # 下载并保存音频
    audioContent = getResponse(videoInfo['audioUrl']).content
    saveMedia(fileName, audioContent, 'mp3')
    # 下载并保存视频
    videoContent = getResponse(videoInfo['videoUrl']).content
    saveMedia(fileName, videoContent, 'mp4')

    Mp3Name = f'D:\\bilibili\\{fileName}.mp3'
    Mp4Name = f'D:\\bilibili\\{fileName}.mp4'
    savePath = f'D:\\bilibili\\merge_{fileName}.mp4'
    AvMerge(Mp3Name, Mp4Name, savePath)


if __name__ == '__main__':
    main()
目录
相关文章
|
1天前
|
存储 索引 Python
Python入门:6.深入解析Python中的序列
在 Python 中,**序列**是一种有序的数据结构,广泛应用于数据存储、操作和处理。序列的一个显著特点是支持通过**索引**访问数据。常见的序列类型包括字符串(`str`)、列表(`list`)和元组(`tuple`)。这些序列各有特点,既可以存储简单的字符,也可以存储复杂的对象。 为了帮助初学者掌握 Python 中的序列操作,本文将围绕**字符串**、**列表**和**元组**这三种序列类型,详细介绍其定义、常用方法和具体示例。
Python入门:6.深入解析Python中的序列
|
1天前
|
存储 Linux iOS开发
Python入门:2.注释与变量的全面解析
在学习Python编程的过程中,注释和变量是必须掌握的两个基础概念。注释帮助我们理解代码的意图,而变量则是用于存储和操作数据的核心工具。熟练掌握这两者,不仅能提高代码的可读性和维护性,还能为后续学习复杂编程概念打下坚实的基础。
Python入门:2.注释与变量的全面解析
|
7天前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
28 10
|
25天前
|
存储 算法 安全
控制局域网上网软件之 Python 字典树算法解析
控制局域网上网软件在现代网络管理中至关重要,用于控制设备的上网行为和访问权限。本文聚焦于字典树(Trie Tree)算法的应用,详细阐述其原理、优势及实现。通过字典树,软件能高效进行关键词匹配和过滤,提升系统性能。文中还提供了Python代码示例,展示了字典树在网址过滤和关键词屏蔽中的具体应用,为局域网的安全和管理提供有力支持。
50 17
|
28天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
56 20
|
1月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
89 3
|
1月前
|
数据采集 XML API
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
|
1月前
|
前端开发 搜索推荐 编译器
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
111 34
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
|
人工智能 Python
Python工具:将文件夹下的视频按照帧数输出图片文件(含代码)
Python工具:将文件夹下的视频按照帧数输出图片文件(含代码)
169 0
|
机器学习/深度学习 数据处理 算法框架/工具

推荐镜像

更多