如何一天爬取500万的成人网站PornHub小视频? -问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何一天爬取500万的成人网站PornHub小视频?

珍宝珠 2020-01-02 13:00:47 11047

如何一天爬取500万的成人网站PornHub小视频?

Python + Scrapy + MongoDB。每天500万条数据!

PornHubBot

PornHubBot是基于Scrapy框架爬取PornHub.com数据的项目,并将数据存储在MongoDB。

  • 项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接

  • 项目爬的是PornHub.com,结构简单,速度飞快

  • 爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络,所以相对慢一点。

  • 10个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

1、主要使用 scrapy 爬虫框架

2、从Cookie池和UA池中随机抽取一个加入到Spider

3、start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。

4、支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装MongoDB,并启动,不需要配置

  • 安装Scrapy

  • 安装Python的依赖模块:pymongo、json、requests

  • 根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等的配置

启动

  • python PornHub/quickstart.py

运行截图

image.png

image.png

数据库说明

数据库中保存数据的表是PhRes。以下是字段描述:

PhRes表:

video_title:     The title of the video, and as a unique.
link_url:        Video jump to Website`s link
image_url:       Video cover link
video_duration:  The length of the video, in seconds
quality_480p:    Video 480p mp4 download address

本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可使用于商业和个人其他意图。若使用不当,均由个人承担。

项目地址

技术交流群

群福利:群内每周进行群直播技术分享及问答

image

分享到
取消 提交回答
全部回答(6)
  • 双持
    2020-03-23 16:26:12

    404 卒

    0 0
  • 游客5sblnickduwac
    2020-03-18 10:20:08

    牛批 存储问题呢

    0 0
  • 游客ausza6fhe6kew
    2020-02-27 11:48:37

    卧槽,这网站都上爬虫?楼主怕不是要灰飞烟灭?哈哈哈哈哈

    0 0
  • bmwhln6b2meok
    2020-02-21 08:40:20

    如何让爬虫来我的网站www.bk2019.com

    0 0
  • 明弈
    2020-01-31 20:16:08
    1. 首先这事不应该做
    2. 如果真的要做,建议先准备爬虫IP池
    0 0
滑动查看更多
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

相似问题