从信息泄密谈到爬虫

简介:

2016年8月,一位自称“Peace”的黑客声称盗取了2亿雅虎用户账户和密码,并寻求在暗网(dark web)上进行售卖。黑客所声称的2亿条信息的泄露似乎盗取自2012年,同时发生的还有MySpace(3.6亿条)和Linkedln(1亿条)两家网站的信息泄露。

有趣的是 Linkedln 的泄露事件还间接导致了扎克伯格的推特账号被黑。因为扎克伯格在两个网站都使用了同一个密码:“dadada”……

在信息化时代,数据泄露无处不在,这种风险可能来自于我们上网的每一个步骤。下面笔者将介绍一种批量获取信息的方式——爬虫。编程语言基于Python,如果对这门语言不是很熟悉可以先了解下它的语法结构。本文将对于爬虫做一个简单入门介绍。

关于爬虫

我们一直在说的爬虫究竟是个什么鬼?

网络爬虫(web crawler),是一个自动提取网页的程序,它为搜索引擎从网路上下载网页。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。

(摘自百度百科)

简单来讲,爬虫是通过程序或者脚本获取网页上的一些文本、图片、音频的数据。

从笔者的经验来看,做一个简单的爬虫程序有以下几个步骤:确立需求、网页下载、网页分析与解析、保存。接下来大家可以跟随笔者的流程,我们来写个抓取豆瓣书籍信息的爬虫。

1、 需求

以豆瓣读书为例,我们爬取豆瓣的书籍信息,需要获取的信息包括:图书名称,出版社,作者,年份,评分。

  2、 网页下载

页面下载分为静态和动态两种下载方式。

静态主要是纯 html 页面,动态是网页会使用 java 处理,并通过Ajax 异步获取的页面。在这里,我们下载的是静态页面。

在下载网页的过程中我们需要用到网络库。在 Python 中有自带的 urllib、urllib2 网络库,但是我们一般采用基于 urllib3 的第三方库Requests ,这是一个深受 Pythoner 喜爱的更为高效简洁的网络库,能满足我们目前的 web 需求。

3、 网页分析与解析1)网页分析:

选好网络库后我们需要做的是:分析我们要爬取的路径——也就是逻辑。

这个过程中我们要找到爬取的每一个入口,例如豆瓣读书的页面。已知图书标签的 url,点击每个 url 能得到图书列表,在图书列表中存放需要的图书信息,求解如何获得图书信息。

所以很简单!我们的爬取路径就是:图书标签 url —> 图书列表—>图书信息。

2)网页解析:

网页解析主要就是通过解析网页源代码获取我们需要的数据,网页解析的方式有很多种,如:正则表达式, BeautifulSoup, XPath 等等,在这里我们采用的是 XPath。Xpath 的语法很简单,是根据路径来进行定位。

举个栗子:上海的位置是 地球—中国—上海,语法表达为 //地球/中国[@城市名=上海]

接下来我们需要解析网页获取到图书的 tag 标签的url。打开网页,右击选择审查元素,然后就会出现调试工具,左上角点击获取我们需要的数据,下面的调试窗口就会直接定位到其所在代码。

  根据其位置,写出其 Xpath 解析式://table[@class='tagCol']//a

这里我们看到小说在一个< table >标签下的< td >标签的< a >标签里。< table >标签可以用 class 属性进行定位。

  以下是获取 tag 的 url 的代码:

获取完了 tag ,我们还需要获取到图书的信息,下面我们对图书列表页进行解析:

  解析之后代码如下:

  爬取的信息内容如下:

  4、 数据保存

获取到了数据之后,我们可以选择把数据保存在数据库中,或者直接写在文件中。这里我们把数据保存到了 mongodb。接下来做一些统计,例如使用图表插件 echarts,将我们的统计结果展示出来。

5、 爬虫相关问题1)网站限制:

爬虫过程中可能会遇到爬不到数据了的问题,这是因为相应网站做了一些反爬的处理来进行爬取限制,比如在爬取豆瓣的时候,就遇到了 403forbidden 。怎么办?这时候可以通过一些相应的方法来解决,比如使用代理服务器,降低爬取速度等,在这里我们采用每次请求 sleep2秒。

2)URL 去重:

URL 去重是爬虫运行中一项关键的步骤,由于运行中的爬虫主要阻塞在网络交互中,因此避免重复的网络交互至关重要。爬虫一般会将待抓取的 URL 放在一个队列中,从抓取后的网页中提取到新的 URL,在他们被放入队列之前,首先要确定这些新的 URL 没有被抓取过,如果之前已经抓取过了,就不再放入队列了。

3)并发操作:

Python 中的并发操作主要涉及的模型有:多线程模型、多进程模型、协程模型。在 Python 中可以通过:threading 模块、multiprocessing 模块、gevent 库 来实现多线程、多进程、或协程的并发操作。

scrapy —— 强大的爬虫框架

谈到爬虫,不得不提的是 Scrapy。Scrapy 是 Python 开发的一个快速,高层次的爬虫框架,用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy 吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap 爬虫等。

scrapy 的架构:

其中绿线是数据流向,首先从初始 URL 开始,Scheduler 会将其交给 Downloader 进行下载,下载之后会交给 Spider 进行分析,需要保存的数据则会被送到 Item Pipeline,对数据进行后期处理。

另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。 因此在开发爬虫的时候,最好也先规划好各种模块。

注:

Xpath 教程:http://www.w3school.com.cn/xpath/index.asp

Requests官方文档:http://docs.python-requests.org/en/master/

更多的 Scrapy 请参考:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

本文作者:胡宇涵(点融黑帮),就职于点融网工程部infra团队运维开发工程师。爱自然,爱生活。


 


  

本文转自d1net(转载)


  

目录
相关文章
|
数据采集 JavaScript 数据安全/隐私保护
「Python」爬虫实战-北京公交线路信息爬取(requests+bs4)
使用requests爬取北京公交线路信息,目标网址为[https://beijing.8684.cn/](https://beijing.8684.cn/)。 爬取的具体信息为公交线路名称、公交的运营范围、运行时间、参考票价、公交所属的公司以及服务热线、公交来回线路的途径站点。
1790 0
|
3天前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
17 2
|
11天前
|
数据采集 存储 NoSQL
Java爬虫-爬取疫苗批次信息
为了解决疫苗批号查询难题,作者因个人情况需查询脊髓灰质炎灭活疫苗信息,发现官网查询系统不便使用。于是,技术大展身手,编写了一个Java爬虫,利用Hutool、Jsoup和Spring Boot的MongoDB库,抓取并存储了中国食品药品检定研究院等多家机构近十年的疫苗批次信息。代码示例展示了如何爬取数据并存入MongoDB,方便按需查询。
44 0
|
1月前
|
数据采集 JavaScript 数据可视化
Node.js爬虫在租房信息监测与分析中的应用
Node.js爬虫在租房信息监测与分析中的应用
|
1月前
|
数据采集 Web App开发 文字识别
高并发数据采集:Ebay商家信息多进程爬虫的进阶实践
高并发数据采集:Ebay商家信息多进程爬虫的进阶实践
|
9月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
369 0
|
1月前
|
数据采集 存储 安全
网络爬虫与数据抓取技术:解锁信息获取新姿势
网络时代,数据是非常重要的资源。通过网络爬虫和数据抓取技术,我们可以从互联网上快速获取所需的数据,并进行分析和应用。本文将深入介绍网络爬虫和数据抓取技术,探讨其原理、应用场景、优缺点以及相关工具和技巧,帮助读者了解网络数据抓取的全貌。
|
7月前
|
数据采集 人工智能 安全
数据安全代表厂商 防勒索+防爬虫领域代表厂商!瑞数信息连续入选国际权威机构报告
近日,全球领先的IT市场研究和咨询公司IDC连续发布了《中国数据安全市场发展趋势,2023》与《中国热点威胁安全检测与防护解决方案,2023》两本报告。
|
8月前
|
数据采集 前端开发 JavaScript
selenium 知网爬虫之根据【关键词】获取文献信息
selenium 知网爬虫之根据【关键词】获取文献信息
selenium 知网爬虫之根据【关键词】获取文献信息
|
9月前
|
数据采集 数据可视化 中间件
链家网房源价格信息的爬虫分析工具
链家网是中国最大的房地产交易平台之一,提供了全国各地的房源信息,包括价格、面积、户型、楼层、朝向、小区、地理位置等。这些信息对于房地产市场的分析和预测有着重要的价值,但是链家网并没有提供方便的数据接口,因此需要使用爬虫技术来抓取和分析这些数据。本文将介绍如何使用Scrapy框架和代理IP技术来实现一个链家网房源价格信息的爬虫分析工具,该工具可以根据指定的城市和区域,抓取并保存链家网上的房源信息,并对数据进行简单的统计和可视化。
123 0
链家网房源价格信息的爬虫分析工具