在开始制作爬虫之前,必要的知识储备是必须的。下面就对基本的知识和工具做些总结.
推荐网页:
- https://www.crifan.com/how_to_use_some_language_python_csharp_to_implement_crawl_website_extract_dynamic_webpage_content_emulate_login_website/
- http://cuiqingcai.com/968.html
什么是GET与Post请求
- GET请求,在访问url中直接包含?variable=key,例如
python=easy&learn=good
- Post请求。比如要登录一个网站(比如知乎),或者填写了一个表格,通常将表单(Form Data)post给网站。
cookie的存放位置
http://blog.csdn.net/songzhichao4444/article/details/19077729
https://www.cnblogs.com/huangye-dream/archive/2013/02/01/2889248.html
cookie不能用文本打开,但是可以通过sqlite查看
网页调试
注意,下文出现的所有浏览器都以Chrome为例。
建议IE, Chrome 同时使用
- F12 -> network。有时需要将preserve log勾上,否则网页跳转的时候log会清空
- 清除cookie和cache。
- setting -> 高级 -> 隐私设置和安全性 -> 内容设置 -> cookie
- 右键-> clear cache or cookie
(未完待续)