爬虫概述
从网页应用爬取信息,并据为己有
python相对于其他语言有很多库,更加有优势
爬虫不能爬取敏感信息,也不能短时间快速爬取造成服务器宕机,应在合法的情况下爬取。
工具
python
pycharm
or
anaconda,jupyter
vs code
…….
第一个爬虫
from urllib.request import urlopen
url = "http://www.zacarx.com"
resp = urlopen(url)
print(resp.read().decode("utf-8"))
当然,当我们想保存文件到当前目录可以写入
from urllib.request import urlopen
url = "http://www.zacarx.com"
resp = urlopen(url)
# print(resp.read().decode("utf-8"))
with open("Zacrx.html", mode="w", encoding="utf-8") as f:
f.write(resp.read().decode("utf-8"))
这样我们就得到了一个保存到本地的网页