Scrapy爬取彩票开奖结果的实现

简介:

需求:

爬取体育彩票高频游戏-北京11选5的开奖结果


实现计划:

使用Scrapy从网页上爬取


实现步骤:

1、准备一个开发测试环境,笔者使用的是:

1
2
3
     1 )Ubuntu16. 04
     2 )Python  2.7 . 12
     3 )Scrapy  1.2 . 0

2、创建一个scrapy工程:  

    scrapy startproject ElevenPFiveSpider


结果如下:

wKioL1glOLaTqP8HAAC9Hupm3AM232.png-wh_50

整个项目的目录结构如下(红色圈中范围,其他是后续添加的):

wKioL1glOdmDTjeJAAeJOYIOtGk057.png-wh_50

3、定义Item

Item是保存爬取到的数据的容器,笔者将需要抓取的数据结构放入到这里。其中关键字段为奖期、开奖号码(实际上,后来发现发现是没有必要的,因为笔者直接将抓取的数据存入到数据库中,建立的数据容器基本没怎么用),实现代码如下:

wKiom1glOt6jVzdBAATEa2MMdM4186.png4、编写爬虫

在spiders文件夹下创建爬取数据的类,包含了初始URL,如何跟进网页中的链接以及如何分析页面中的内容,实现代码如下:

wKiom1glVQ2BRyGFABQhWsRgtmc341.png

说明:

A、提取数据项需要使用到Selectors选择器,它使用了一种基于xpath和css表达式的机制。具体的使用方法,请参考:

    Scrapy入门教程http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

    Scrapy文档https://scrapy.org/doc/

B、爬取的网站使用了加密技术,需要进行解密操作。留心的读者可以查看它的加密机制其实特别easy,只需要建立特定的解密字典即可;

5、运行结果:

wKiom1glVkyRgKg-AAMAx9HHBr4678.png





本文转自 许大树 51CTO博客,原文链接:http://blog.51cto.com/abelxu/1871752,如需转载请自行联系原作者

相关文章
|
6月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
4月前
|
数据采集 存储 缓存
使用Scrapy进行网络爬取时的缓存策略与User-Agent管理
使用Scrapy进行网络爬取时的缓存策略与User-Agent管理
|
5月前
|
Web App开发 iOS开发 Python
经验大分享:scrapy框架爬取糗妹妹网站qiumeimei.com图片
经验大分享:scrapy框架爬取糗妹妹网站qiumeimei.com图片
37 0
|
XML 数据采集 JSON
scrapy_selenium爬取Ajax、JSON、XML网页:豆瓣电影
在网络爬虫的开发过程中,我们经常会遇到一些动态加载的网页,它们的数据不是直接嵌入在HTML中,而是通过Ajax、JSON、XML等方式异步获取的。这些网页对于传统的scrapy爬虫来说,是很难直接解析的。那么,我们该如何使用scrapy_selenium来爬取这些数据格式的网页呢?本文将为你介绍scrapy_selenium的基本原理和使用方法,并给出一个实际的案例。
111 0
|
6月前
|
数据采集 JavaScript 开发者
使用Scrapy有效爬取某书广告详细过程
使用Scrapy有效爬取某书广告详细过程
使用Scrapy有效爬取某书广告详细过程
|
6月前
|
数据采集 Python
Scrapy框架 -- 深度爬取并持久化保存图片
Scrapy框架 -- 深度爬取并持久化保存图片
124 0
|
数据采集 存储 JSON
「Python」爬虫-9.Scrapy框架的初识-公交信息爬取
本文将讲解如何使用scrapy框架完成北京公交信息的获取。
736 0
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
309 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
数据采集 开发者 Python
如何使用Scrapy框架爬取301跳转后的数据
如何使用Scrapy框架爬取301跳转后的数据
|
数据采集 Web App开发 存储
使用 Scrapy + Selenium 爬取动态渲染的页面
使用 Scrapy + Selenium 爬取动态渲染的页面
497 0
使用 Scrapy + Selenium 爬取动态渲染的页面