python selenium爬取kuku漫画

简介:

在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会返回403,终于找到一个没有限制的漫画网站,演示一下selenium爬虫

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
# -*- coding:utf-8 -*-
# crawl kuku漫画
__author__ = 'fengzhankui'
from  selenium  import  webdriver
from  selenium.webdriver.common.desired_capabilities  import  DesiredCapabilities
import  os
import  urllib2
import  chrom
class  getManhua( object ):
     def  __init__( self ):
         self .num = 5
         self .starturl = 'http://comic.kukudm.com/comiclist/2154/51850/1.htm'
         self .browser = self .getBrowser()
         self .getPic( self .browser)
     def  getBrowser( self ):
         dcap  =  dict (DesiredCapabilities.PHANTOMJS)
         dcap[ "phantomjs.page.settings.userAgent" =  ( "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" )
         browser = webdriver.PhantomJS(desired_capabilities = dcap)
         try :
             browser.get( self .starturl)
         except :
             print  'open url fail'
         browser.implicitly_wait( 20 )
         return  browser
     def  getPic( self ,browser):
         cartoonTitle  =  browser.title.split( '_' )[ 0 ]
         self .createDir(cartoonTitle)
         os.chdir(cartoonTitle)
         for  in  range ( 1 , self .num):
             i = str (i)
             imgurl  =  browser.find_element_by_tag_name( 'img' ).get_attribute( 'src' )
             print  imgurl
             with  open ( 'page' + i + '.jpg' , 'wb' ) as fp:
                 agent  =  chrom.pcUserAgent.get( 'Firefox 4.0.1 - Windows' )
                 request = urllib2.Request(imgurl)
                 request.add_header(agent.split( ':' , 1 )[ 0 ],agent.split( ':' , 1 )[ 0 ])
                 response = urllib2.urlopen(request)
                 fp.write(response.read())
                 print  'page' + i + 'success'
             NextTag  =  browser.find_elements_by_tag_name( 'a' )[ - 1 ].get_attribute( 'href' )
             browser.get(NextTag)
             browser.implicitly_wait( 20 )
     def  createDir( self ,cartoonTitle):
         if  os.path.exists(cartoonTitle):
             print  'exists'
         else :
             os.mkdir(cartoonTitle)
if  __name__ = = '__main__' :
     getManhua()

对了应对反爬虫的机制,我在selenium和urllib2分别加了请求参数,反正网站通过过滤请求的方式将爬虫过滤掉,在这里仅爬取了开始url往下的5页,而且为了防止图片和网络延时,设置20秒了等待时间,刚开始运行时间会稍微有点长,需要等待。

运行过程如图所示

wKiom1ll3wuB477ZAAFK8HMWBlM829.jpg-wh_50










本文转自 无心低语 51CTO博客,原文链接:http://blog.51cto.com/fengzhankui/1946775,如需转载请自行联系原作者
目录
相关文章
|
8月前
|
Web App开发 存储 前端开发
Python+Selenium自动化爬取携程动态加载游记
Python+Selenium自动化爬取携程动态加载游记
|
6月前
|
SQL 测试技术 数据库
healenium+python+selenium
上次介绍了如何利用healenium+java+selenium来实现selenium的自愈,这次介绍如何healenium+python+selenium。关于healenium+python+selenium网上资料更少,并且甚至是错误的。在著名的书籍《软件测试权威指南中》也是有一定问题的。现在介绍如下
374 4
|
10月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
750 68
|
Web App开发 前端开发 JavaScript
探索Python科学计算的边界:利用Selenium进行Web应用性能测试与优化
【10月更文挑战第6天】随着互联网技术的发展,Web应用程序已经成为人们日常生活和工作中不可或缺的一部分。这些应用不仅需要提供丰富的功能,还必须具备良好的性能表现以保证用户体验。性能测试是确保Web应用能够快速响应用户请求并处理大量并发访问的关键步骤之一。本文将探讨如何使用Python结合Selenium来进行Web应用的性能测试,并通过实际代码示例展示如何识别瓶颈及优化应用。
680 5
|
10月前
|
数据采集 Web App开发 前端开发
Python+Selenium爬虫:豆瓣登录反反爬策略解析
Python+Selenium爬虫:豆瓣登录反反爬策略解析
|
数据采集 Web App开发 存储
打造高效的Web Scraper:Python与Selenium的完美结合
本文介绍如何使用Python结合Selenium,通过代理IP、设置Cookie和User-Agent抓取BOSS直聘的招聘信息,包括公司名称、岗位、要求和薪资。这些数据可用于行业趋势、人才需求、企业动态及区域经济分析,为求职者、企业和分析师提供宝贵信息。文中详细说明了环境准备、代理配置、登录操作及数据抓取步骤,并提醒注意反爬虫机制和验证码处理等问题。
407 1
打造高效的Web Scraper:Python与Selenium的完美结合
|
Web App开发 数据采集 数据安全/隐私保护
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
907 6
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
测试技术 数据安全/隐私保护 开发者
自动化测试的奥秘:如何用Selenium和Python提升软件质量
【9月更文挑战第35天】在软件开发的海洋中,自动化测试是那艘能引领我们穿越波涛的帆船。本文将揭开自动化测试的神秘面纱,以Selenium和Python为工具,展示如何构建一个简单而强大的自动化测试框架。我们将从基础出发,逐步深入到高级应用,让读者能够理解并实现自动化测试脚本,从而提升软件的质量与可靠性。

热门文章

最新文章

推荐镜像

更多