Python爬虫基础笔记

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 【6月更文挑战第5天】Python爬虫基础笔记

什么是爬虫?

爬虫是一种从互联网抓取数据信息的自动化程序;

如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛(程序),沿着网络抓取自己的猎物(数据)。

爬虫如何工作?

构建网页

·构造一个请求并发送给服务器;

·接收到响应(页面源代码)并将其解析出来;

提取信息

·网页的结构有一定的规则,采用正则表达式提取;

·使用Requests库,我们可以高效快速地从中提取网页信息;

保存数据

·将提取到的数据保存到某处以便后续使用;

·保存形式有多种多样,可以保存到文本或者数据库。

爬虫能做什么?

爬虫根据不同的用途,可以分为通用爬虫和专用爬虫,本次课程中使用的抓取图片的爬虫即为专用爬虫。爬虫的主要用途有如下几种:

·搜索引擎:Google、Baidu等;

·图片抓取:抓取特定类型的图片,可用于个人收藏、Al图像分析等;

·信息收集:新闻资讯聚合、学术信息等;

·数据分析:商品价格比较、股票量化交易等;

为什么使用Python编写爬虫?

. Python编程语言语法简洁,易于学习,快速上手;

. Python有成熟的爬虫生态,在抓取网页本身和网页抓取后的处理都有丰富的框架和库可用

(如Beautiful Soup框架、Urlib2和Requests库等),编写爬虫不必从零开始;

. Python在处理数据方面有天然的优势,可以把Python爬虫与后续的机器学习、数据可视化无缝对接。

什么是Python?

Python是一种面向对象的解释型计算机程序设计语言,主要特性有:

·免费,开源;

·语法简洁清晰,容易上手;

·多种平台,可扩展,不区分操作系统;

支持模块和包,有极为丰富、功能强大的库;

·语法表达优美易读,利用缩进表示语句块的开始和退出;

·在人工智能、科学计算、图形技术、动画、游戏等行业被广泛使用。

Python基础:数据类型

Python支持的标准数据类型主要有如下几种:

·数字:如整型(123)、布尔型(True/False) 、浮点型(1.23)

·字符串(String) :如'l love Python', "l do not love Python”

·列表(List):如[ 'a', 'b', 'c', 'd'],[ 1,2,3,4]

·元组(Tuples):如('a', 'b', 'c')元组是不可变列表,一旦创建就无法改变

·字典(Dictionaries):如{'name':'Tom' , 'age': 24},键值对一—对应

Python基础:变量

·变量名必须是字母或_开头,以双下划线开头和结尾的变量是python特殊方法的专用标识,如_init_()代表类的构造函数,供解释器使用;

·变量可以引用任何类型的对象;变量没有类型,只有对象有类型。变量在使用前必须被赋值。例如: x = 1在Python中的赋值过程如下:

1、在内存中创建对象1;

2、创建变量名x;

3、把变量和对象建立映射关系;

4、赋值是把对象的引用赋值给变量而不是值。

Python基础:文件

·文件是我们储存信息的地方,我们经常要对文件进行读、写等操作·在Python中,我们可用Python提供的函数和方法方便地操作文件。

f.open() 打开文件

f.close() 关闭文件,用open()打开文件后不关闭会占用系统文件句柄数。

f.readline() 读出一行信息。(文件EOF读出的是空串)

f.readlines() 读出所有行,也就是读出整个文件的信息。

f.write(string) 把string字符串写入文件。

f.writelines(list) 把list中的字符串一行一行地写入文件。

Python基础:语句

lf语句用来做条件判断,基本原理及形式如下:

. for循环语句: for iter_var in iterable: suite_to_repeat

·每次循环,iter_var迭代变量为可迭代对的当前元素,提供给suite_to_repeat语句块使用。

Python基础:函数

函数是一个能完成特定功能的代码块,可在程序中重复使用,减少程序的代码量和提高程序的执行效率。在python中函数定义语法如下:

def function_name (arg1 ,arg2 [ ,...]):

statement

[return value]

返回值不是必须的,如果没有return语句,则Python默认返回值None;

·函数的参数是函数与外部沟通的桥梁,它可接收外部传递过来的值;在函数内部中给参数赋值不会影响调用者;在函数内部修改可变类型的参数会影响到调用者。

Python基础:模块

·函数是一个能完成特定功能的代码块,可在程序中重复使用,减少程序的代码量和提高程序函模块提供了一种逻辑的方式来组织我们的代码;

·模块的物理形式就是文件。一个文件对应一个模块,文件名就是模块名+.py

·通过import关键字我们可以导入模块: import module1,[module2,[...moduleN]]

·推荐的import导入模块顺序: python标准库—> python第三方库一>自定义模块。

·模块(module)其实就是.py文件,里面定义了一些函数、类、变量等;

·包(package)是多个模块的聚合休形成的文件夹,里面可以是多个py文件

·库(参考其他语言的说法)在python中就是模块和包,是指完成一定功能的代码集合。

Python基础:异常处理

. Python无法正常处理程序时就会发生一个异常,异常发生时我们需要捕获处理它,否则程序会终止执行;

·捕捉异常使用try/except语句用来检测try语句块中的错误,从而让except语句捕获异常信息并处理。

try :

try_suite            #监控这里的异常

except Exception [ , reason] :

except_suite            #异常处理代码

什么是HTML ?

.HTML (HyperText Markup Language)是一种用于创建网页的超文本标记语言;

. HTML可以构建WEB站点,HTML运行在浏览器上,由浏览器来解析。

HTML标签

HTML标签通常被称为HTML标签(HTML tag),标签是由尖括号包围,通常是成对出现的,比如和,和。

HTML常用标签如下:

texto1

, text02        #文本标签

(text、password、checkbox)        #输入框

       #超文本链接

           #图片

HTML网页结构

以下是一个可视化的HTML网页示意图:

HTTP协议

HTTP(超文本传输协议)是一个基于请求与响应模式的应用层的协议,常基于TCP的连接方式。HTTP协议是万维网的数据通信基础,主要特点可概括如下:

·简单快速:客户请求时只需传送请求方法和路径,程序规模小,因而通信速度很快;

·灵活:HTTP允许传输任意类型的数据对象;

·无连接:服务端每次只处理一个请求,完成即断开,节省传输时间;

HTTP请求

. HTTP请求由三部分组成,分别是:请求行、消息报头、请求正文;

·HTTP请求格式如下:Method Request-URI HTTP-Version CRLF,其中Method表示请求方法;Request-URI是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行。

GET            请求获取Request-URI所标识的资源

POST        在Request-URI所标识的资源后附加新的数据

HEAD        请求获取由Request-URI所标识的资源的响应消息报头

PUT            请求服务器存储一个资源,并用Request-URI作为其标识

DELETE        请求服务器删除Request-URI所标识的资源

HTTP响应

·在接收和解释请求消息后,服务器返回一个HTTP响应消息;

·HTTP响应格式如下:HTTP-Version Status-Code Reason-Phrase CRLF,其中,HTTP-

Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。

1xx        指示信息--表示请求已接收,继续处理            N/A

2xx        成功--表示请求已被成功接收、理解、接受        200 OK

3xx        重定向--要完成请求必须进行更进—步的操作    N/A

4xx        客户端错误--请求有语法错误或请求无法实现    404 Not Found/403 Forbidden

5xx        服务器端错误--服务器未能实现合法的请求        503 Server Unavailable

Requests库

Requests是一常用的http请求库,它使用python语言编写,可以方便地发送http请求,以及方便地处理响应结果。

爬虫抓取图片方案对比

对比项                本地方案                    华为云方案

运行环境        本地环境搭建复杂            云上ECS自带Python环境,无需配置

反爬虫应对        个人PC为代理共享公网地址        独享公网EIP地址,可随时更改

计算资源

本地方案:受限于个人PC性能,耽误其他工作处理,无法随时在线

华为云方案:容易获取、即开即用、弹性伸缩、随时在线、按需使用

数据库

本地方案:资源性能受限,不便于数据分享或二次利用

华为云方案:即开即用,完全托管;高性能易扩展;数据安全可备份恢复;便于分享和二次利用

整体解决方案架构

爬虫的生命周期管理

生命周期                涉及到的华为云服务                    详细信息

Python运行环境                ECS弹性云主机            使用Python3环境、VIM编辑器

爬虫编写与调试                ECS弹性云主机        使用Python3环境、CentOS系统

爬虫程序管理        ECS弹性云主机、EIP公网地址            运行、停止Python爬虫

存储抓取信息        ECS弹性云主机、OBS对象存储            CentOS系统、OBSUtil工具

使用ECS运行爬虫的优势

. ECS有弹性公网IP地址,有效方式网站反爬;

. ECS购买方便,即开即用,运行高效(相较于个人电脑);

·ECS规格丰富,可根据爬取任务负载灵活选择或者变更;

.ECS按需使用,运行完成爬虫程序后即可释放资源,节省费用;

. ECS可与其他华为云服务配合使用,是更适合网络爬虫的运行环境。

使用OBS存储爬取内容的优势

可靠

OBS通过AZ内设备/数据多冗余和AZ间数据容灾等多级可靠性架构,保障数据持久性高达99.999999999%(11个9),业务连续性高达99.99%.

高效

OBS通过智能调度,并结合传输加速大数据垂直优化,为用户提供高并发、大带宽、稳定低时延的数据访问体验。

安全

OBS通过可信云认证,支持服务端加密、防盗链、VPC网络隔离、日志审计、细粒度权限控制,保障数据安全可信。

易用

OBS支持REST API,提供多种语言的SDK,兼容主流的客户端工具,您可以随时随地通过网络上传、下载、管理您的数据。

什么是ECS ?

弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。

ECS的主要特性如下:

·数据可靠:可弹性扩展的虚拟块存储服务,高数据可靠性,高V/O吞吐能力;

·弹性易用:提供控制台、远程终端和API等多种管理方式,给您完全管理权限;

·规格丰富:多类型、多规格、多镜像;

·多维监控:提供开放性的云监控服务平台,提供资源的实时监控、告警、通知等服务。

ECS购买流程

什么是OBS ?

OBS对象存储服务(Object Storage Service)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括创建、修改、上传、下载、删除对象等。

OBS相关概念:

·对象(object)

·桶(bucket)

.AK: Access Key ID安全证书.

SK: Secret Access Key接入证书

·区域

OBS权限控制

通过IAM设置用户OBS的资源操作权限

Tenant Administrator        拥有该权限的用户可以对OBS对象存储资源执行任意操作。

Tenant Guest                拥有该权限的用户可以查询OBS对象存储资源的利用情况。

OBS Buckets Viewer    具备该权限的用户,可以执行获取桶列表、查询桶元数据和位置信息的操作。

OBS服务监控

.OBS管理控制支持基于桶的存储空间、对象数量、流量统计和请求次数统计;·管理员可以在桶概览页面查看到桶的监控信息。

OBS使用方式

. OBS对象存储服务提供了多种数据存取使用方式,覆盖各类使用场景;·本次实践采用Linux系统上的obsutils客户端来管理对象存储。

洞察目的网页

先洞察确认需要获得数据信息(本实验中的数据指的是明星图片),然后使用Python编程语言编写简单的爬虫,并将此爬虫程序封装为可交互的应用程序。

在编写Python爬虫程序之前,需要准备以下准备爬虫抓取的目的网页关键信息:

·目的网站:百度图片images.baidu.com

·目的关键字:刘德华(娱乐明星)、Yao Ming(体育明星)

编写Python爬虫代码

在洞察目的网页后,编写Python爬虫代码的主要步骤如下

·步骤1使用Windows自带记事本创建一个空的文本文件,用于编写Python爬虫代码;

·步骤2导入需要使用到的正则表达式regex和requests两个Python库;

·步骤3从浏览器地址栏复制百度图片当前页面的URL地址;

·步骤4分析复制的地址,传入requests,编写正则表达式;

·步骤5 循环抓取并处理图片异常情况,增加10秒超时控制;

·步骤6 保存抓取到的图片到本地images目录,并以数字命名图片;

·步骤7完成全部的Python爬虫代码。

实践

步骤1新建项目文件夹,创建爬虫项目

步骤⒉使用pycharm打开爬虫项目

步骤3编写vamll.py文件

步骤4编写itmes.py文件

步骤5 在pipelines.py中添加RDS信息

步骤6 创建start.py文件

步骤7编写settings.py文件

使用OBS存储图片

在华为公有云端创建OBS对象存储,并将Python爬虫抓取的明星图片从CentOS操作系统的ECS云主机上传到OBS存储桶中,方便访问和共享。

1. (是非题)使用Python编写网络爬虫需要从零开始,没有可用的框架。

true

false 正确

2. (单选题)网络爬虫的本质是什么?

搜索引擎

抓取信息的程序 正确

网络上的蜘蛛

网页URL

3. (单选题)OBS对象存储服务通过下列哪种方式来进行用户认证?

用户名/密码

私钥签名

公钥签名

AK/SK 正确

4. (多选题)HTTP协议具有哪些特点?

简单快速

灵活

无连接

有状态

正确

5. (多选题)创建OBS对象存储服务的存储桶时,有哪些可选的桶策略?

私有

公共读

公共读写

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1月前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
8天前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
34 3
|
19天前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
20天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
29天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
1月前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
1月前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
2月前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。