黑客工具_Python多线程爬虫抓取扫描器

简介:

代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
# -*- coding:utf-8 -*-
__author__ = "iplaypython.com"
  
import  os
import  urllib2
import  threading
import  Queue
import  time
import  random
  
=  Queue.Queue()  # Queue产生一个队列,有3种类型队列 默认用 FIFO队列
threading_num  =  5  # 开启5个线程
  
# 扫描本地IP或域名
domain_name  =  "http://127.0.0.1"
# 百度蜘蛛UA
Baidu_spider  =  "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
# 不需要的文件过滤列表
exclude_list  =  [ '.jpg' '.gif' '.css' '.png' '.js' '.scss'
  
proxy_list  =  # 代理服务器,可能已经失效,换为自己的
     { 'http' '117.28.254.130:8080' },
     { 'http' '118.144.177.254:3128' },
     { 'http' '113.118.211.152:9797' },
]
  
# 打开字典文件,开始过滤不需要的文件路径
with  open ( "/home/leo/app_txt/wordpress.txt"  "r" ) as lines:
     for  line  in  lines:
         line  =  line.rstrip()
         if  os.path.splitext(line)[ 1 not  in  exclude_list:
             q.put(line)  #将line传入到队列 q 中
  
# 扫描器方法
def  crawler():
     while  not  q.empty():  # 循环
         path  =  q.get() 将line从队列 q 中取出来
  
         url  =  "%s%s"  %  (domain_name, path)  # 组合url地址,用于下一步提交
  
         random_proxy  =  random.choice(proxy_list)  # 随机使用一个代理服务器
         proxy_support  =  urllib2.ProxyHandler(random_proxy)
         opener  =  urllib2.build_opener(proxy_support)
         urllib2.install_opener(opener)
  
         headers  =  {} 
         headers[ 'User-Agent' =  Baidu_spider  # 蜘蛛的头部信息
         # 玩蛇网 www.iplaypython.com
  
         request  =  urllib2.Request(url, headers = headers) 
  
         try :
             response  =  urllib2.urlopen(request)
             content  =  response.read()
  
             if  len (content):  # 内容不为空的情况下返回状态码、路径
                 print  "Status [%s]  - path: %s"  %  (response.code, path)
  
             response.close()
             time.sleep( 1 # 休息一会儿,防止速度过快连接数过大被封掉IP
         except  urllib2.HTTPError as e:
             # print e.code, path
             pass  # 异常处理,先暂时pass掉
  
if  __name__  = =  '__main__' :
     # 创建多线程并指明函数的入口为crawler,以后还可以传参进去
     for  in  range (threading_num): 
         =  threading.Thread(target = crawler)
         t.start()


    # 上面代码,我们一共导入了6个模块都是接下来需要使用的功能模块,

    # os作用是对我们不需要扫描的后缀名文件进行筛选,     

    # urllib2负责抓取,而threading就是我们的Python多线程模块,     

    # 这次还需要用到Queue这个保证线程安全的队列模块,     

    # 其它两个比较简单,一个是随机模块random,另一个时间模块time

转载地址:http://www.iplaypython.com/crawler/multithreading-crawler-scanner.html





      本文转自027ryan  51CTO博客,原文链接:http://blog.51cto.com/ucode/1871010,如需转载请自行联系原作者






相关文章
|
20天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
63 6
|
28天前
|
安全 数据处理 开发者
Python中的多线程编程:从入门到精通
本文将深入探讨Python中的多线程编程,包括其基本原理、应用场景、实现方法以及常见问题和解决方案。通过本文的学习,读者将对Python多线程编程有一个全面的认识,能够在实际项目中灵活运用。
|
11天前
|
并行计算 数据处理 调度
Python中的并发编程:探索多线程与多进程的奥秘####
本文深入探讨了Python中并发编程的两种主要方式——多线程与多进程,通过对比分析它们的工作原理、适用场景及性能差异,揭示了在不同应用需求下如何合理选择并发模型。文章首先简述了并发编程的基本概念,随后详细阐述了Python中多线程与多进程的实现机制,包括GIL(全局解释器锁)对多线程的影响以及多进程的独立内存空间特性。最后,通过实例演示了如何在Python项目中有效利用多线程和多进程提升程序性能。 ####
|
8天前
|
数据采集 前端开发 JavaScript
除了网页标题,还能用爬虫抓取哪些信息?
爬虫技术可以抓取网页上的各种信息,包括文本、图片、视频、链接、结构化数据、用户信息、价格和库存、导航菜单、CSS和JavaScript、元数据、社交媒体信息、地图和位置信息、广告信息、日历和事件信息、评论和评分、API数据等。通过Python和BeautifulSoup等工具,可以轻松实现数据抓取。但在使用爬虫时,需遵守相关法律法规,尊重网站的版权和隐私政策,合理控制请求频率,确保数据的合法性和有效性。
|
30天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
18天前
|
JSON 安全 数据安全/隐私保护
Python安全守护神:OAuth与JWT,让黑客望而却步的魔法阵🧙‍♂️
在网络世界中,数据安全至关重要。本文介绍了如何在Python环境中使用OAuth 2.0和JSON Web Tokens (JWT) 构建安全的认证系统。OAuth 2.0是一种开放标准授权协议,允许客户端在不暴露用户凭证的情况下访问资源。JWT则是一种轻量级的数据交换格式,用于在各方之间安全地传输信息。结合两者,可以构建出既安全又高效的认证体系。文章通过Flask-OAuthlib和PyJWT库的示例代码,详细展示了实现过程。
35 2
|
18天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
21天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
47 4
|
23天前
|
Java Unix 调度
python多线程!
本文介绍了线程的基本概念、多线程技术、线程的创建与管理、线程间的通信与同步机制,以及线程池和队列模块的使用。文章详细讲解了如何使用 `_thread` 和 `threading` 模块创建和管理线程,介绍了线程锁 `Lock` 的作用和使用方法,解决了多线程环境下的数据共享问题。此外,还介绍了 `Timer` 定时器和 `ThreadPoolExecutor` 线程池的使用,最后通过一个具体的案例展示了如何使用多线程爬取电影票房数据。文章还对比了进程和线程的优缺点,并讨论了计算密集型和IO密集型任务的适用场景。
44 4
|
26天前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
28 4