Python爬虫：爬虫基本原理-阿里云开发者社区

Python爬虫：爬虫基本原理

2022-08-29 177

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：爬虫基本原理

爬虫：

请求网站 并 提取数据 的 自动化程序

爬虫基本流程：

发起请求 -> 获取响应 -> 解析内容 -> 保存数据

Request

请求方式 Request Method：get post
请求url Request URL
请求头 Request Headers
请求体 Form Data

Response

响应状态 Status code 200ok 301跳转 404找不到页面 502服务器错误
响应头 Response Headers 设置cookies
响应体 Response Body

抓取的数据格式

网页文本 html json
二进制文件 图片 视频

代码示例：

>>> import requests
# 下载网页文件
>>> response = requests.get("http://www.baidu.com")
>>> response.status_code
200
>>> len(response.text)
22240
>>> response.headers
{'Content-Type': 'text/html', 'Content-Encoding': 'gzip', 'Expires': 'Thu, 10 Dec 2026 23:21:37 GMT', 'Cache-Control': 'max-age=7776000', 'Content-Length': '8436', 'Connection': 'close'}
# 增加请求头
>>> headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
>>> response = requests.get("http://www.baidu.com", headers=headers)
>>> response.status_code
200
# 下载图片，二进制文件
>>> response = requests.get("https://www.baidu.com/img/superlogo_c4d7df0a003d3db9b65e9ef0fe6da1ec.png", headers=headers)
>>> response.status_code
200
>>> with open("baidu.jpg", "wb") as f:
...     f.write(response.content)
...     f.close()
... 
6958

解析方式

直接处理
json解析
正则表达式
BeautifulSoup
XPath
pyquery

解决JavaScript渲染

分析Ajax
selenium库
Splash
PyV8 Ghost.py

保存数据

纯文本 txt, json, xml
关系型数据库 mysql sqlite  oracle sqlserver
非关系型数据库 MongoDB Redis
二进制存储 图片 声音 视频

Python爬虫：爬虫基本原理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫：爬虫基本原理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像