我们在对网页进行抓取时,经常需要判断网页是否可以正常访问,这里我们就可以使用 getcode() 函数获取网页状态码,返回 200 说明网页正常,返回 404 说明网页不存在:
实例
importurllib.request
myURL1 =urllib.request.urlopen("https://www.runoob.com/")
print(myURL1.getcode()) # 200
try:
myURL2 =urllib.request.urlopen("https://www.runoob.com/no.html")
excepturllib.error.HTTPErroras e:
if e.code==404:
print(404) # 404
如果要将抓取的网页保存到本地,可以使用 Python3 File write() 方法 函数:
实例
fromurllib.requestimport urlopen
myURL = urlopen("https://www.runoob.com/")
f =open("runoob_urllib_test.html","wb")
content = myURL.read() # 读取网页内容
f.write(content)
f.close()
执行以上代码,在本地就会生成一个 runoob_urllib_test.html 文件。