本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.7节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.7 实例——metaseeker
metaseeker是一款比较实用的网站数据采集程序,使用该采集程序,可以让大家比较快速、形象地了解爬虫的工作过程。所以在本节中,会以metaseeker为例,跟大家一起学习如何采集当当网的商品及价格信息,让大家对爬虫工作过程有一个形象地了解,为后续我们使用Python开发爬虫打下基础。
如图3-5所示,我们将为大家爬取当当网新书栏目下的商品的名称及价格等信息(http://e.dangdang.com/morelist_page.html?columnType=all_rec_xssf&title=%E6%96%B0%E4%B9%A6%E9%A6%96%E5%8F%91)。
![8e066f9a226637922d0c1e487e878417d7b3b019](https://yqfile.alicdn.com/8e066f9a226637922d0c1e487e878417d7b3b019.png?x-oss-process=image/resize,w_1400/format,webp)
可以从官网下载metaseeker工具(http://www.gooseeker.com/pro/product.html) ,进入后,选择第三种方案下载,如图3-6所示。该软件有的版本可以与浏览器配合使用,方案三集成了浏览器和该爬虫软件,安装起来比较简单。
![06cbce4a03da0cde8db3a8292ddc170684b3143b](https://yqfile.alicdn.com/06cbce4a03da0cde8db3a8292ddc170684b3143b.png?x-oss-process=image/resize,w_1400/format,webp)
下载之后,我们只需要打开安装即可,安装好之后,打开该软件,会出现一个类似浏览器的界面,我们打开要爬取的网址(即刚才提到的当当网的图书商品页),单击“MS谋数台”,如图3-7所示。
![b1c913ca073ce17e46b0d8ac7f84113a9a0f8ff4](https://yqfile.alicdn.com/b1c913ca073ce17e46b0d8ac7f84113a9a0f8ff4.png?x-oss-process=image/resize,w_1400/format,webp)
打开后,会出现图3-8所示的界面。
此时,我们需要将刚才的商品页面网址复制到左上角的网址处,并按一下回车键,如图3-9所示。在加载了一会儿之后,软件的左下角处会出现“完成”字样,此时代表网页加载完成。
![78f1e6ec8168e34ddec6f77c801390bc5aa8e9b2](https://yqfile.alicdn.com/78f1e6ec8168e34ddec6f77c801390bc5aa8e9b2.png?x-oss-process=image/resize,w_1400/format,webp)
然后,我们需要在该界面的“工作台”中,创建命名主题,创建好命名主题后,需要单击“查重”按钮,看是否名称冲突,若名称冲突则需要换一个主题名字。如图3-10所示,创建了一个名为dangdangbookprice的主题名。
创建主题名之后,需要进行下一步操作,即创建规则。我们在创建规则的页面中,单击新建,便可以输入想创建的规则名称,该规则名称可以自己拟定,如图3-11所示,我们创建了一个名为“当当图书商品价格抓取”的规则名称。
![a04671980728d17abe0dde1934d3e05dd7ddcc77](https://yqfile.alicdn.com/a04671980728d17abe0dde1934d3e05dd7ddcc77.png?x-oss-process=image/resize,w_1400/format,webp)
![2e4dbfd3a3bda42ecbf2e4d2fad64bf2d7675787](https://yqfile.alicdn.com/2e4dbfd3a3bda42ecbf2e4d2fad64bf2d7675787.png?x-oss-process=image/resize,w_1400/format,webp)
![c1e5c244bfdd00bfc3a9d4b9a2d170d91af4a2a3](https://yqfile.alicdn.com/c1e5c244bfdd00bfc3a9d4b9a2d170d91af4a2a3.png?x-oss-process=image/resize,w_1400/format,webp)
创建好了该规则名称后,我们需要选定该规则名,然后右键,单击添加→包容,如图3-12所示。
随后,会出现如图3-13所示的界面,让我们填写被爬取内容的详细信息,此时,我们需要根据自己的需求规划好一共需要多少个包容,比如,在此我们需要爬取商品的名称和商品的价格,所以两个包容就够了。我们先创建第一个包容,即商品价格,输入对应名称,然后勾选好右边的“关键内容”。完成之后,可以单击保存,然后再次选中规则名,并右键添加第二个包容,即商品名称。
![f21e7adeeb91689ad57c6589faca894282498247](https://yqfile.alicdn.com/f21e7adeeb91689ad57c6589faca894282498247.png?x-oss-process=image/resize,w_1400/format,webp)
![0c236f736830d147cb8fbcc0b7009506ef5dafef](https://yqfile.alicdn.com/0c236f736830d147cb8fbcc0b7009506ef5dafef.png?x-oss-process=image/resize,w_1400/format,webp)
完成之后,会出现如图3-14所示界面。
随后,我们可以在该界面的浏览器窗口中,选择其中一个商品的名称,即以一个商品名为例,建立好对应的规则。单击后可能会出现如图3-15所示的提示。
![8ce90dd05aaf6db29e91afe4a5eaa6a695b8ea4f](https://yqfile.alicdn.com/8ce90dd05aaf6db29e91afe4a5eaa6a695b8ea4f.png?x-oss-process=image/resize,w_1400/format,webp)
![c05a1bcaac3ec5d50d8307434ebac86252fff058](https://yqfile.alicdn.com/c05a1bcaac3ec5d50d8307434ebac86252fff058.png?x-oss-process=image/resize,w_1400/format,webp)
如果出现图3-15中的提示,我们可以单击该界面左上角的文件→刷新网页结构,如图3-16所示,这样即可解决该问题。
![2f504f59fe28f1f722835ab17ad8c3e6664a8305](https://yqfile.alicdn.com/2f504f59fe28f1f722835ab17ad8c3e6664a8305.png?x-oss-process=image/resize,w_1400/format,webp)
解决该问题后,我们再次单击其中一个商品名,单击后,网页标签处自动定位到对应的元素中。如图3-17所示,我们单击了“幸存者”之后,在网页标签中自动定位到了对应的DIV中,将DIV展开,有一个“#text”的字样,选中该字样,可以看到,在工作台的文本内容中,出现了对应的商品名,此时代表商品名定位成功。
随后,我们选中对应的“#text”,然后右键,单击内容映射→商品名称,将该规则映射到对应的商品名称包容中,那么以后,便可以根据这个规则去爬取网页上的其他商品的名称了,如图3-18所示。
我们还需要指定价格的规则,此时我们在浏览器区域中,单击该商品对应的价格,然后,在网页标签处会进行自动定位,如图3-19所示,我们单击了对应的价格“9.09”之后,网页标签处,自动定位到了对应的I标签下,我们展开I标签,同样可以看得到一个“#text”,选中“#text”在工作台的文本内容中,会出现对应的价格信息,此时,代表定位成功。
然后,我们同样需要选中该标签,然后右击,将该标签映射到商品价格中,如图3-20所示。
![6c469e8fea1288ab91d5361a0dcbab590f3e7b87](https://yqfile.alicdn.com/6c469e8fea1288ab91d5361a0dcbab590f3e7b87.png?x-oss-process=image/resize,w_1400/format,webp)
![bd72d5bca5f3c343deb7333e446c46f49e44882c](https://yqfile.alicdn.com/bd72d5bca5f3c343deb7333e446c46f49e44882c.png?x-oss-process=image/resize,w_1400/format,webp)
![c9a876f7854a6f48b28c6e84edc6507d4843ab9c](https://yqfile.alicdn.com/c9a876f7854a6f48b28c6e84edc6507d4843ab9c.png?x-oss-process=image/resize,w_1400/format,webp)
![2ffad6c99794bb0e80922dd2479437f03887365a](https://yqfile.alicdn.com/2ffad6c99794bb0e80922dd2479437f03887365a.png?x-oss-process=image/resize,w_1400/format,webp)
标签规则映射好之后,我们返回工作台,然后单击测试,便可以看得到当前是否爬取该界面中的所有商品信息。如图3-21所示,返回工作台,并单击测试。
单击了测试后,在输出信息中,我们可以看得到,该输出信息包含了该界面中所有的商品名称和对应的商品价格,也就是说,我们成功采集了,如图3-22所示,由于界面空间有限,只展现了部分爬取信息。
如果我们要对该网站下其他网页中的商品信息都进行自动爬取,虽然也是可以的,但是需要设置对应的爬取规则。在这里,metaseeker的使用仅作为本书的一个实例,并不是本书的重点内容,所以,关于metaseeker的深入使用部分我们就不过多讲解了,对应的内容不难,有兴趣的读者可以查看相关资料。
![3aeb779973b1f9a430f193938b835dce81420533](https://yqfile.alicdn.com/3aeb779973b1f9a430f193938b835dce81420533.png?x-oss-process=image/resize,w_1400/format,webp)
![f16658e1211235692b27c6759f42731a2ef334e5](https://yqfile.alicdn.com/f16658e1211235692b27c6759f42731a2ef334e5.png?x-oss-process=image/resize,w_1400/format,webp)
我们讲该实例的目的是让大家对爬虫有一个形象的初步印象,方便后续深入学习爬虫开发。