python爬虫目标网站的基本步骤-阿里云开发者社区

python爬虫目标网站的基本步骤

2023-03-01 246

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在访问目标网站的过程中分别需要做些什么步骤

3月1日起，2022年度个税汇算正式开始。一些人又可以领到国家的退税“红包”了。

很多网友在3月1日凌晨申请退税，纷纷晒出自己的退税金额，有的人退税金额超过万元，直呼：真香！

税务部门自从推出预约办理服务后，大家都纷纷在个税app上提前开始预约了截至2月28日，个税APP显示，3月1日当天预约已满。3月2日-3月20日仍然可以预约。

QQ图片20230301152100 (1).png

刚好最近要分享些爬虫类的文章，那本次实验以爬取“https://data.stats.gov.cn中的“城乡居民收支基本情况”为例，因为居民的收入支出也是跟税收有关联的。

数据爬虫基本流程如下：

发起请求：通过向目标站点发起请求，即发送一个request，请求可以包含额外的headers等信息，等待服务器响应

url='http://data.stats.gov.cn/easyquery.htm?cn=A01'
headers={'User-Agent':'Mozilla/5.0(Windows;U;Windows NT6.1;en-US;rv:1.9.1.6) Geko/20091201 Firefox/3.5.6'}#浏览器代理
key={}#参数键值对
key['m']='QueryData'
key['dbcode']='hgyd'
key['rowcode']='zb'
key['colcode']='sj'
key['wds']='[]'
key['dfwds']='[{"wdcode":"sj","valuecode":"LAST13"}]'
key['k1']=str(getTime())
r=requests.get(url,headers=headers,params=key)
js=json.loads(r.text)
js

获取相应内容：如果服务器能正常响应，会得到一个response，response的内容便是所要获取的页面内容，类型可能有HTML，json字符串，二进制数据等类型。根据实际分析发现，目标网站的反爬机制很严格，特别是针对IP的限制，同一个IP多次访问就被关小黑屋。所以这里我们直接采用python3使Selenium+Chrome+BeautifulSoup+隧道加强版IP池来进行爬取

#! -- encoding:utf-8 -- import requests # 导入requests库 import random import threading # 导入threading库，用于多线程
#要访问的目标页面
targetUrlList = [ “https://httpbin.org/ip”, “https://httpbin.org/headers”, “https://httpbin.org/user-agent”, ]
#代理服务器(产品官网 www.16yun.cn)
proxyHost = “t.16yun.cn” proxyPort = “31111”
#代理验证信息
proxyUser = “16yun” proxyPass = “16ip”
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}" # 使用f-string格式化字符串
#设置 http和https访问都是用HTTP代理
proxies = { “http”: proxyMeta, “https”: proxyMeta, }
#设置IP切换头
tunnel = random.randint(1, 10000) headers = {“Proxy-Tunnel”: str(tunnel)}
#定义一个变量，用于统计请求次数
request_count = 0
#定义一个锁对象，用于保护请求次数的变量
lock = threading.Lock()
#定义一个函数，用于发起请求和打印响应
def get_url(url): global request_count # 声明全局变量 r = requests.get(url, proxies=proxies, headers=headers) # 使用requests库发起请求，传入代理和头信息 # 判断状态码是否为200，如果不是，打印错误信息 if r.status_code == 200: print(r.text) # 打印响应内容 else: print(f"请求失败，状态码为{r.status_code}") # 打印错误信息 # 获取锁，如果锁被占用，就等待，直到锁释放 lock.acquire() request_count += 1 # 请求次数加一 # 释放锁，让其他线程可以获取锁 lock.release()
#定义一个列表，用于存放线程对象
threads = []
#访问三次网站，使用相同的tunnel标志，均能够保持相同的外网IP
for i in range(3): for url in targetUrlList: t = threading.Thread(target=get_url, args=(url,)) # 创建线程对象，传入url参数 threads.append(t) # 将线程对象添加到列表中
#启动所有线程
for t in threads: t.start()
#等待所有线程结束
for t in threads: t.join()
#打印请求次数
print(f"总共请求了{request_count}次")

解析内容：得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析，可能是json，可以直接转为json对象，可能是二进制数据，可以做保存或者进一步的处理

保存数据：可以存为文本，也可以保存至数据库，或者特定格式的文件

python爬虫目标网站的基本步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python爬虫目标网站的基本步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像