Python爬虫系列13-采集快手短视频官网数据

简介: 读书不是唯一出路,但学习一定是。有些人忙碌的活着,有些人努力的拼搏,有些人随意挥霍青春,人生百态,各有不同。

实战

快手的官网中有很多不同种类的栏目,如果想抓取该网站的视频数据,就需要先确定要抓取的视频种类。
image.png

比如直播数据,当然直播的数据肯定是抓取不了的,因为还没有生成mp4文件。
image.png

image.png

进入主播的直播间,我们可以看到主播发布的作品,这些作品都是可以批量抓取的。

image.png

image.png

分析网页的时候,可以通过搜索关键词mp4文件。找到之后就可以请求并下载数据了;大家可以自行摸索一下。我前面的文章都有讲如何分析。《键盘上按F12就可以进入到抓包工具界面》。
image.png

第一步:请求网页数据;这里我采用进度条形式的下载方式


from tqdm import tqdm
import time

for tony in tqdm(range(100)):
   time.sleep(0.5)

image.png

第二步:获取网页视频长度

import requests

url = 'https://txmov2.a.kwimgs.com/bs2/newWatermark/Nzc1MTI4NjU4ODE_zh_4.mp4'

# 发起网络请求  Content-Length: 5817208  长度

res = requests.get(url)
size = int(res.headers['Content-Length'])
print(size)

image.png

第三步:对视频长度进行处理及保存


file_name = 'tony老师下载的王者荣耀视频.mp4'
# bytes 字节
with open(file_name,'wb') as file:
    # 100%|██████████| 100/100 [01:40<00:00,  1.01s/it]   kb
    for tony in tqdm(
        # 视频文件读取
        res.iter_content(size),
        total=size,
        desc=file_name,
        unit='kb'
# tony老师下载的王者荣耀视频.mp4: 27460kb [00:00, 372074.26kb/s]

    ):
        #  15%|█▍        | 14/100 [00:14<01:26,  1.01s/it]
        file.write(tony)

image.png

结果展示

image.png

在这个浮躁的时代;竟然还有人能坚持篇篇原创;

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

支持原创。感谢!

相关文章
|
3天前
|
数据采集 XML 存储
【Python实战】Python多线程批量采集图片
【Python实战】Python多线程批量采集图片
|
3天前
|
数据采集 XML 存储
【Python实战】Python采集二手车数据——超详细讲解
【Python实战】Python采集二手车数据——超详细讲解
|
11天前
|
数据采集 存储 分布式计算
Nutch爬虫在大数据采集中的应用案例
Nutch爬虫在大数据采集中的应用案例
|
16天前
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
99 9
|
25天前
|
数据采集 存储 数据库
优化 Django 模型设计:解决重复爬虫任务和商品数据
在开发数据采集(爬虫)应用时,我们常常面临这样一个问题:不同用户提交了相同的采集任务。为了避免在数据库中存储重复的 URL 和商品数据,我们需要优化模型设计。本文将介绍如何设计 Django 模型,以解决这个问题,并确保数据的一致性和完整性。
|
28天前
|
数据采集 安全 数据处理
Python采集数据处理:利用Pandas进行组排序和筛选
使用Python的Pandas库,结合亿牛云代理和多线程技术,提升网络爬虫数据处理效率。通过代理IP避免封锁,多线程并发采集,示例代码展示数据分组、排序、筛选及代理IP配置和线程管理。
Python采集数据处理:利用Pandas进行组排序和筛选
|
2月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
2月前
|
监控 PHP Python
1688快速获取整店铺列表 采集接口php Python
在电子商务的浪潮中,1688平台作为中国领先的批发交易平台,为广大商家提供了一个展示和销售商品的广阔舞台;然而,要在众多店铺中脱颖而出,快速获取商品列表并进行有效营销是关键。
|
2月前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
41 2
|
2月前
|
数据采集 存储 人工智能
Python采集数据保存CSV文件内容乱码解决
Python采集数据保存CSV文件内容乱码解决
43 1