爬虫概述
爬虫就是获取页面来提取和保存信息的自动化程序。
获取网页
爬虫的工作首先是获取网页,这里就是获取网页的源代码。
提取信息
通过获取网页的源代码后来分析源代码并从中提取到我们想要使用的数据,首先最常用的方法是采用正则表达式,另外由于网页结构具有一定的规则,所以有些要根据CSS选择器或者XPath来提取其中的信息。
保存数据
提取信息后我们一般会将保存的数据保存到某处以便后续用来使用。可以简单保存为TXT文件或者JSON文件,也可以保存到数据库,如MYSQL,MongDB,还可以保存到远程服务器。
自动化程序
自动化程序的大概意思就是爬虫来代替人类来完成上面的操作,我们可以手动来提取网页中信息,但是当量特别大时、肯定还是借助程序快。
爬取哪些数据
网页中存在这各种各样的信息,最常见的便是常规网页,这些网页代表着HTML代码,最常见的便是HTML源代码,另外有些网页返回的并不是HTML代码。而是JSON字符串这种格式的数据方便传输和解析,网页中还包括各种二进制数据,如图片视频,音频,利用爬虫,将这些二进制数据抓取下来,然后保存对应的文件。
但是当我们爬取JavaScript渲染的页面时,用urlib和requests抓取网页时得到的源代码和浏览器中实际看到的不一样。越来越多的网页都是由Ajax、前端模块化工具来构建的。对于这种情况分析源代码Ajax接口,也可以使用一些第三方库来模拟渲染。