3月1日起,2022年度个税汇算正式开始。一些人又可以领到国家的退税“红包”了。
很多网友在3月1日凌晨申请退税,纷纷晒出自己的退税金额,有的人退税金额超过万元,直呼:真香!
税务部门自从推出预约办理服务后,大家都纷纷在个税app上提前开始预约了截至2月28日,个税APP显示,3月1日当天预约已满。3月2日-3月20日仍然可以预约。
刚好最近要分享些爬虫类的文章,那本次实验以爬取“https://data.stats.gov.cn中的“城乡居民收支基本情况”为例,因为居民的收入支出也是跟税收有关联的。
数据爬虫基本流程如下:
发起请求:通过向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应
url='http://data.stats.gov.cn/easyquery.htm?cn=A01' headers={'User-Agent':'Mozilla/5.0(Windows;U;Windows NT6.1;en-US;rv:1.9.1.6) Geko/20091201 Firefox/3.5.6'}#浏览器代理 key={}#参数键值对 key['m']='QueryData' key['dbcode']='hgyd' key['rowcode']='zb' key['colcode']='sj' key['wds']='[]' key['dfwds']='[{"wdcode":"sj","valuecode":"LAST13"}]' key['k1']=str(getTime()) r=requests.get(url,headers=headers,params=key) js=json.loads(r.text) js
获取相应内容:如果服务器能正常响应,会得到一个response,response的内容便是所要获取的页面内容,类型可能有HTML,json字符串,二进制数据等类型。根据实际分析发现,目标网站的反爬机制很严格,特别是针对IP的限制,同一个IP多次访问就被关小黑屋。所以这里我们直接采用python3使Selenium+Chrome+BeautifulSoup+隧道加强版IP池来进行爬取
#! -- encoding:utf-8 -- import requests # 导入requests库 import random import threading # 导入threading库,用于多线程 #要访问的目标页面 targetUrlList = [ “https://httpbin.org/ip”, “https://httpbin.org/headers”, “https://httpbin.org/user-agent”, ] #代理服务器(产品官网 www.16yun.cn) proxyHost = “t.16yun.cn” proxyPort = “31111” #代理验证信息 proxyUser = “16yun” proxyPass = “16ip” proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}" # 使用f-string格式化字符串 #设置 http和https访问都是用HTTP代理 proxies = { “http”: proxyMeta, “https”: proxyMeta, } #设置IP切换头 tunnel = random.randint(1, 10000) headers = {“Proxy-Tunnel”: str(tunnel)} #定义一个变量,用于统计请求次数 request_count = 0 #定义一个锁对象,用于保护请求次数的变量 lock = threading.Lock() #定义一个函数,用于发起请求和打印响应 def get_url(url): global request_count # 声明全局变量 r = requests.get(url, proxies=proxies, headers=headers) # 使用requests库发起请求,传入代理和头信息 # 判断状态码是否为200,如果不是,打印错误信息 if r.status_code == 200: print(r.text) # 打印响应内容 else: print(f"请求失败,状态码为{r.status_code}") # 打印错误信息 # 获取锁,如果锁被占用,就等待,直到锁释放 lock.acquire() request_count += 1 # 请求次数加一 # 释放锁,让其他线程可以获取锁 lock.release() #定义一个列表,用于存放线程对象 threads = [] #访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP for i in range(3): for url in targetUrlList: t = threading.Thread(target=get_url, args=(url,)) # 创建线程对象,传入url参数 threads.append(t) # 将线程对象添加到列表中 #启动所有线程 for t in threads: t.start() #等待所有线程结束 for t in threads: t.join() #打印请求次数 print(f"总共请求了{request_count}次")
解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是json,可以直接转为json对象,可能是二进制数据,可以做保存或者进一步的处理
保存数据:可以存为文本,也可以保存至数据库,或者特定格式的文件