程序技术好文:爬取煎蛋XXOO妹子图片

简介: 程序技术好文:爬取煎蛋XXOO妹子图片

"

今天回忆廖大的多线程的时候,看到下面有人写了个多线程的爬虫点进去看了下,分析的很仔细,写了接近200行代码吧

让后我就研究了一下这个网站,emmmm,selenium + PhantomJS不就直接搞定了嘛,然后//代码效果参考:https://v.youku.com/v_show/id_XNjM5NTYxMjM5Ng==.html

就写了段code:

然后发现,哇,selenium不支持PhantomJS了,因为chrome和firefox自带了headless的访问,然后就去各个blog看,最后爬下了这个网站:

1 import unittest

2 import requests

3 import time

4 import re

5 from random import randint

6 from selenium import webdriver

7 from selenium.webdriver.chrome.options import Options

8 from selenium.webdriver.common.keys import Keys

9

10 class ooxx_spider(unittest.TestCase):

11

12 def setUp(self):

13 chrome_options = Options()

14 chrome_options.add_argument('--headless')

15 chrome_options.add_argument('--disable-gpu')

16 self.driver = webdriver.Chrome('E:/chromedriver.exe', chrome_options=chrome_options)

17

18 def test_spider(self):

19 for i in range(1, 80):

20 url = '' + 'page-' + str(i)

21 self.driver.get(url)

22 //代码效果参考:https://v.youku.com/v_show/id_XNjM5OTMwMTE5Mg==.html

print(url)

23 elem = self.driver.find_elements_by_xpath('//*【@class=""commentlist""】/li/div/div/div/p/img')#/li/div/div/div/p/img

24 for j in elem:

25 self.save_img(j.get_attribute('src'))

26 print('第{}页爬取成功'.format(i))

27

28 def save_img(self, res):

29 suffix = res.split('.')【-1】

30 destination = 'picture/' + str(randint(1, 1000)) + str(randint(1, 1000)) + '.'+ suffix

31 r = requests.get(res)

32 with open(destination, 'wb') as f:

33 f.write(r.content)

34

35 def tearDown(self):

36 self.driver.close()

37

38 if name == 'main':

39 unittest.main()

补上多线程的代码

核心代码:

1 def test_multiscraping(self):

2 p = Pool()#默认大小是cpu的核数,你可以修改比如说双核Pool(2)

3 #这里假设我是4个进程,所以range(5)

4 for i in range(5):

5 p.apply_async(scraping, args = (i, ))

6 p.close()

7 p.join()

cpu太垃圾了,晚上回去用同学的cpu测试一下(留下了穷人的眼泪)

不忘初心,方得始终


"
image.png
相关文章
|
2天前
|
文字识别 数据安全/隐私保护
程序技术好文:简易验证码识别
程序技术好文:简易验证码识别
程序技术好文:简易验证码识别
|
数据采集 IDE 开发工具
python爬虫入门教程:爬取网页图片
python爬虫入门教程:爬取网页图片
277 0
|
数据采集 Python
|
XML 数据采集 Web App开发
Python爬虫篇:爬虫笔记合集
Python爬虫篇:爬虫笔记合集
107 0
|
Web App开发 数据采集 Python
Python爬虫入门教程 5-100 27270图片爬取
获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说。
1882 0
|
数据采集 API Python
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片爬取器之一写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。
1419 0
|
数据采集 Python 数据库管理
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。
2589 0
|
数据采集 Python
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
2604 0