《精通Python网络爬虫:核心技术、框架与项目实战》——3.7 实例——metaseeker-阿里云开发者社区

开发者社区> 华章出版社> 正文

《精通Python网络爬虫:核心技术、框架与项目实战》——3.7 实例——metaseeker

简介:

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.7节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.7 实例——metaseeker

metaseeker是一款比较实用的网站数据采集程序,使用该采集程序,可以让大家比较快速、形象地了解爬虫的工作过程。所以在本节中,会以metaseeker为例,跟大家一起学习如何采集当当网的商品及价格信息,让大家对爬虫工作过程有一个形象地了解,为后续我们使用Python开发爬虫打下基础。

如图3-5所示,我们将为大家爬取当当网新书栏目下的商品的名称及价格等信息(http://e.dangdang.com/morelist_page.html?columnType=all_rec_xssf&title=%E6%96%B0%E4%B9%A6%E9%A6%96%E5%8F%91)。


8e066f9a226637922d0c1e487e878417d7b3b019

可以从官网下载metaseeker工具(http://www.gooseeker.com/pro/product.html) ,进入后,选择第三种方案下载,如图3-6所示。该软件有的版本可以与浏览器配合使用,方案三集成了浏览器和该爬虫软件,安装起来比较简单。


06cbce4a03da0cde8db3a8292ddc170684b3143b

下载之后,我们只需要打开安装即可,安装好之后,打开该软件,会出现一个类似浏览器的界面,我们打开要爬取的网址(即刚才提到的当当网的图书商品页),单击“MS谋数台”,如图3-7所示。


b1c913ca073ce17e46b0d8ac7f84113a9a0f8ff4

打开后,会出现图3-8所示的界面。

此时,我们需要将刚才的商品页面网址复制到左上角的网址处,并按一下回车键,如图3-9所示。在加载了一会儿之后,软件的左下角处会出现“完成”字样,此时代表网页加载完成。


78f1e6ec8168e34ddec6f77c801390bc5aa8e9b2

然后,我们需要在该界面的“工作台”中,创建命名主题,创建好命名主题后,需要单击“查重”按钮,看是否名称冲突,若名称冲突则需要换一个主题名字。如图3-10所示,创建了一个名为dangdangbookprice的主题名。

创建主题名之后,需要进行下一步操作,即创建规则。我们在创建规则的页面中,单击新建,便可以输入想创建的规则名称,该规则名称可以自己拟定,如图3-11所示,我们创建了一个名为“当当图书商品价格抓取”的规则名称。


a04671980728d17abe0dde1934d3e05dd7ddcc77


2e4dbfd3a3bda42ecbf2e4d2fad64bf2d7675787


c1e5c244bfdd00bfc3a9d4b9a2d170d91af4a2a3

创建好了该规则名称后,我们需要选定该规则名,然后右键,单击添加→包容,如图3-12所示。

随后,会出现如图3-13所示的界面,让我们填写被爬取内容的详细信息,此时,我们需要根据自己的需求规划好一共需要多少个包容,比如,在此我们需要爬取商品的名称和商品的价格,所以两个包容就够了。我们先创建第一个包容,即商品价格,输入对应名称,然后勾选好右边的“关键内容”。完成之后,可以单击保存,然后再次选中规则名,并右键添加第二个包容,即商品名称。


f21e7adeeb91689ad57c6589faca894282498247


0c236f736830d147cb8fbcc0b7009506ef5dafef

完成之后,会出现如图3-14所示界面。

随后,我们可以在该界面的浏览器窗口中,选择其中一个商品的名称,即以一个商品名为例,建立好对应的规则。单击后可能会出现如图3-15所示的提示。


8ce90dd05aaf6db29e91afe4a5eaa6a695b8ea4f


c05a1bcaac3ec5d50d8307434ebac86252fff058

如果出现图3-15中的提示,我们可以单击该界面左上角的文件→刷新网页结构,如图3-16所示,这样即可解决该问题。


2f504f59fe28f1f722835ab17ad8c3e6664a8305

解决该问题后,我们再次单击其中一个商品名,单击后,网页标签处自动定位到对应的元素中。如图3-17所示,我们单击了“幸存者”之后,在网页标签中自动定位到了对应的DIV中,将DIV展开,有一个“#text”的字样,选中该字样,可以看到,在工作台的文本内容中,出现了对应的商品名,此时代表商品名定位成功。

随后,我们选中对应的“#text”,然后右键,单击内容映射→商品名称,将该规则映射到对应的商品名称包容中,那么以后,便可以根据这个规则去爬取网页上的其他商品的名称了,如图3-18所示。

我们还需要指定价格的规则,此时我们在浏览器区域中,单击该商品对应的价格,然后,在网页标签处会进行自动定位,如图3-19所示,我们单击了对应的价格“9.09”之后,网页标签处,自动定位到了对应的I标签下,我们展开I标签,同样可以看得到一个“#text”,选中“#text”在工作台的文本内容中,会出现对应的价格信息,此时,代表定位成功。

然后,我们同样需要选中该标签,然后右击,将该标签映射到商品价格中,如图3-20所示。


6c469e8fea1288ab91d5361a0dcbab590f3e7b87


bd72d5bca5f3c343deb7333e446c46f49e44882c


c9a876f7854a6f48b28c6e84edc6507d4843ab9c


2ffad6c99794bb0e80922dd2479437f03887365a

标签规则映射好之后,我们返回工作台,然后单击测试,便可以看得到当前是否爬取该界面中的所有商品信息。如图3-21所示,返回工作台,并单击测试。

单击了测试后,在输出信息中,我们可以看得到,该输出信息包含了该界面中所有的商品名称和对应的商品价格,也就是说,我们成功采集了,如图3-22所示,由于界面空间有限,只展现了部分爬取信息。

如果我们要对该网站下其他网页中的商品信息都进行自动爬取,虽然也是可以的,但是需要设置对应的爬取规则。在这里,metaseeker的使用仅作为本书的一个实例,并不是本书的重点内容,所以,关于metaseeker的深入使用部分我们就不过多讲解了,对应的内容不难,有兴趣的读者可以查看相关资料。


3aeb779973b1f9a430f193938b835dce81420533


f16658e1211235692b27c6759f42731a2ef334e5

我们讲该实例的目的是让大家对爬虫有一个形象的初步印象,方便后续深入学习爬虫开发。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接