Python分布式爬虫实战(三) - 爬虫基础知识(上)-阿里云开发者社区

开发者社区> javaedge> 正文

Python分布式爬虫实战(三) - 爬虫基础知识(上)

简介: Python分布式爬虫实战(三) - 爬虫基础知识(上)
+关注继续查看

0 相关源码

1 技术选型 爬虫能做什么

1.1 scrapy VS requests + beautifulsoup

做爬虫的时候,经常都会听到 scrapy VS requests+beautifulsoup的组合 在本次分布式爬虫实现中只用scrapy而不用后者的原因是:

  • requestsbeautifulsoup 都是库, scrapy是一个框架 框架中可以应用 requests等,可以集合很多第三方库
  • 基于 twisted(异步IO框架) 性能是最大的优势
  • 方便扩展 提供了很多内置的功能,提高开发速度
  • 内置 cssxpath selector 对html或者xml进行分析,非常方便, beautifulsoup缺点就是慢

实践中还是会用到requests,但是不会用到beautifulsoup,因为它的功能可以直接使用scrapy的select完成.

1.2 网页分类

常见类型的服务

  • 静态网页 事先在服务器端生成好的页面,内容固定
  • 动态网页 从服务器端取数据返回
  • webservice(REST API) 也是属于动态网页的一种,只是通过ajax方式和后台交互的一种技术

1.3 爬虫能做什么

  • 搜索引擎-百度,google,垂直领域搜索引擎(有一个目标,知道自己到底爬什么数据)
  • 推荐引擎-今日头条(根据浏览习惯猜测感兴趣的内容进行推送)
  • 机器学习的数据样本
  • 数据分析-金融数据分析,舆情分析

2 正则表达式

2.1 为何需要

为什么有css或者xpath selector还要学正则表达式,有时候根据selector获得了整个标签内的内容,但是还要进行进一步的筛选,比如里面的数字信息等

2.2 作用

可以帮我们判断某个字符串是否符合某一个模式 提取整个字符串里面的重要的部分信息

2.3 常用字符的用法

^ : 以什么字符开头
$ : 以什么字符结尾
. : 任意字符
* :出现任意次数,0次或者更多次
():还提取按模式取出来的子串。例如,".*(b.*b).*"表示不管前后是什么的两个b之间的子串
? :下面详解
+ :字符至少出现一次
{1}:前面的字符出现一次
{3,}: 要求前面的字符必须出现3次以上
{2,5}:前面的字符至少出现2次,最少出现5次
| : 或的关系
[] : 中括号里面的内容只要满足任何一个即可,也可以是一个区间,中括号里面的^表示不等于,中括号里面的符号就是符号,不是特殊符号的含义
\s :表示空格符
\S : 刚好与小s的意思相反,只要不是空格都可以
\w : 表示[A-Za-z0-9_]其中的任意一个字符
\W : 与\w的意思刚好相反
[\u4E00-\u9FA5] : unicode编码,含义是汉字,意思是只要出现汉字就可以。
\d : 表示数字

2.4 coding 演示

新建项目

image.png

^ : 以什么字符开头 此处以J开头即可!

image.png

$ : 以什么字符结尾 此处以4结尾即可!

image.png

J开头,中间为任意字符,最后以4结尾

image.png

? : 非贪婪匹配模式

默认的情况下,匹配是贪婪模式,匹配最大长度 比如对于 "bobby123"这个待匹配的,结果就是bb,而不是bobb,所以这就是贪婪,反向匹配(或者理解成直到结束符合的最后一个结果) 非贪婪匹配就是从左边开始,只需要出现一个结果就可以了,".?(b.?b)."表示对两个b从左到右只要出现一次就可 ".?(b.b)."第二个b不要问好,那么第二个b就是贪婪模式,会持续匹配到最后一个b


现在源数据变更为 

image.png

欲取得字符串 boooooooob 

image.png

然而现实,却是 

image.png

非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。

此处贪婪匹配最开始时反向匹配,从右向左,所以得到bb结果串!就无法提取目标串!何解?


那就需要我们的 ?了!变成一种非贪婪模式

image.png

于是我们,更改匹配规则

image.png

结果令人失望!居然还多了个小b!!!

image.png

虽然左部分正常匹配左边的b了,但是规则的右部分依旧贪婪匹配!必须让规则右边的b不要那么贪婪!给他也加个 ?修饰~即可!

image.png

终于......提取成功啦!

image.png

限定出现次数

image.png

| : 表示或关系

image.png

下面更改源字符串 

image.png

规则 

image.png

结果

image.png

想要提取完整的怎么做呢?

image.png

结果 

image.png

[]

image.png

规则

image.png

结果

image.png

匹配电话号码

image.png

规则

image.png

其中有 ^

image.png

\s

image.png

image.png


\S只能匹配一个非空字符!!! 

image.png

image.png

\w

image.png

image.png

image.png

w不满足的空格,W满足!

image.png

汉字编码


image.png

源字符串 

image.png

想提取到底是什么大学 

image.png

这样也是不行的,又产生了贪婪匹配问题 

image.png

所以要加上 ?取消贪婪 

image.png

完美提取XX大学

d D

image.png

源字符串 

image.png

  • 想提取1997
  • 这样是不够的,只能提取出7

image.png

这样就ok啦! 

image.png

或者必须取消贪婪 

image.png

综合实战

源字符串 

image.png

可提取1,2,3,4 

image.png

以下为完美解决规则 

image.png




版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
史上最快! 10小时大数据入门实战(四)-分布式资源调度YARN
1 YARN 产生背景 2 YARN 架构 3 YARN 执行流程 1.
1049 0
ZooKeeper分布式入门实战(二)-ZooKeeper基本数据模型
1 zk数据模型介绍 一 二 2 zk客户端连接关闭服务端,查看znode 重启 zk 启动 zkCli.
925 0
Python学习基础知识概要
1.输入输出 输出实例   1 2 print 'hello','world' hello world 输入实例   1 2 3 4 5 name = raw_input(); print "hello,",name   world hello,world
929 0
【转】零基础写Java知乎爬虫之进阶篇
转自:脚本之家   说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。
911 0
9、web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json import random import re import urllib.
2555 0
基于python的Scrapy爬虫框架实战
基于python的Scrapy爬虫框架实战 2018年7月19日笔记 1.伯乐在线 网站页面如下图所示: 网站页面.png 1.1 新建爬虫工程 命令:scrapy startproject BoleArticle 新建爬虫工程命令 命令:scrapy genspider article "blog.jobbole.com" 注意:运行此命令时必须在爬虫工程文件夹内,如下图路径所示。
1287 0
HBase+SpringBoot分布式文件存储实战(二)-HBase简介与环境部署
1 HBase简介及其在大数据生态圈的位置 行列表举例 行 / 列式数据表,即把列放在一起 列式则适合于大批量查询 2 HBase数据存储模型及与关系型数据库的区别 ...
1399 0
青铜到王者 ,快速提升你 Go语言的段位! "狗"语言实战(二)- 基础语法
1 变量定义 var 语句定义了一个变量的列表;跟函数的参数列表一样,类型在后面。 就像在这个例子中看到的一样,var 语句可以定义在包或函数级别。
960 0
CSS 全解析实战(二)-HTML基础强化
1 HTML常见元素和理解(1) HTML 常见元素 viewport 标签适配移动端 HTML 重要属性 2 HTML常见元素和理解(2) 标签的 HTML5新属性 href 规定链接的目标地址 target 规定在何处打开链接文档 表格 label 为 input 元素定义标注(标记)。
866 0
ZooKeeper分布式入门实战(一)-基本安装配置等
1.1 zookeeper 简介 中间件,提供协调服务 作用于分布式系统,发挥其优势,可以为大数据服务 支持 Java, 提供 Java 和 C语言的客户端 API 1.
1077 0
+关注
javaedge
关注公众号:JavaEdge,后台回复面试,领取更多大厂求职资源。曾在百度、携程、华为等大厂搬砖,专注Java生态各种中间件原理、框架源码、微服务、中台等架构设计及落地实战,只生产硬核干货!
2316
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载