相关知识点
- 服务器渲染:在页面源代码中能看到数据
- 客户端渲染:在页面源代码中不能看到数据,网页文件和数据分别返回——爬虫要求熟练使用浏览器的抓包工具
- 请求头的重要信息:
referer / cookie / user-agent / token
- 请求方式:
GET(显性提交)/ POST(隐性提交)
Demo 1-1
# 导入urllib中request模块中的urlopen from urllib.request import urlopen # 设置URL url = "https://www.baidu.com/" # 打开URL reps = urlopen(url) with open("baidu.html",mode="w",encoding="utf-8") as f: f.write(reps.read().decode("utf-8")) print("over!")