“任意”找个url,测试一下成功爬取100次网页的时间。(某些网站对于连续爬取页面将采取屏蔽IP的策略,所以,要避开这类网站。)
import requests
import time
def getHtmlText(url):
try: # try except:用于异常处理
r = requests.get(url, timeout=30) # get到网站 timeout=30:如果get时间超过30s,则停止等待响应
r.raise_for_status() # 检测是否连接成功
r.encoding = r.apparent_encoding
return r.text
except:
return '运行异常'
if __name__ == "__main__": # Python 模拟的程序入口
url = 'https://www.baidu.com'
totaltime = 0
for i in range(100):
starttime = time.perf_counter()
getHtmlText(url)
endtime = time.perf_counter()
print('第{0}次爬取,用时{1:.4f}秒'.format(i+1, endtime-starttime))
totaltime=totaltime+endtime-starttime
print('总共用时{:.4f}秒'.format(totaltime))
网络爬虫有风险,爬取数据需谨慎