小白爬虫第一篇——抓取淘宝文胸数据

简介:

小白爬虫系列的文章,顾名思义都是写给小白的,每一篇都是楼主都会选择一个网站进行实战,因为楼主觉得爬虫是一个力气活,只有在实战中才能提高战力啊。好了,话不多说,我们选择的第一个网站是淘宝,当然这次不是大规模抓取,大规模留到进阶篇。首先我们打开淘宝的首页,然后在搜索栏输入文胸(这里只是以文胸为例子,你喜欢写啥就写啥,本人测试无论输入哪种商品都可以),结果如图:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这里都是琳琅满目的文胸,然后楼主去网页的源代码看了看,商品的具体数据是JS动态加载的,不在源代码里面的,那么我们就找嘛,毕竟每页这么多的商品数据,找到这个JS文件也不难,因为淘宝的商品太多了,楼主就简单切换一下页数,果然在切换的时候抓到了这个js请求文件,如图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

打开这个文件可以看到都是我们需要的商品数据

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

抓到这个文件就好办了,我们先分析一下这个请求,如图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里的URL是超级长,当然我们可以适当调整的,url里面的很多参数去掉也是没有关系的,我们先把这个URL直接复制到浏览器打开,看看结果,如图

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

在大括号里面的是我们想要的数据,但是明显这里有个jsonp1035这段数字字母阻碍着我们解析里面这段数据,楼主是解析超久这段数据也没有成功啊当时,最好斗胆在网页中把这段字母数字去掉,居然是不妨碍我们访问的,改了之后的URL是这个 
https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q=文胸
好了,访问这个网站得到的数据就是干干净净的json数据了,可以直接在Python里面解析了,当然你可以不是文胸,我测试了很多商品都没有问题的。 
如下是代码,超级简单的,值得一提的是淘宝的数据隐藏得比较深,不是一个简单的字典,当时楼主不知道json在线解析器折腾了好久,里面商品的数据是在字典几个层次下面的,你要按照key-value一步步提取才可以,如图
640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

data_dict就是那份淘宝数据解析成的字典,要取到后面第四个key,后面的数据才是我们要的商品数据

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行之后,随便输入你想要爬取的商品,然后都会被以csv的格式爬取下来的,里面有价格,交易次数,地点等数据,有兴趣的也可以分析一下哈,总结起来本次实战难点主要有两点: 
一、淘宝链接的提取以及修改 
二、具体数据的解析以及提取 
最后提一下,本篇爬取的是第一页,但是只爬一页明显是满足不了楼主和各位的啊,楼主翻了翻,其实页数是有规律的,如图
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

页数都是有数字规律的,当然第一篇我们简单爬取就好了,等我下几篇教会了大家如何写简单的代理池,我们再回来大规模爬微信或者京东淘宝这些网站,我们慢慢来。

好了,本篇实战介绍到这里,下次带带大家爬一爬链家某个区域房子的数据,保准学会,超级简单。



原文发布时间为:2017-03-17
本文作者:蜗牛仔
本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”微信公众号
相关文章
|
1天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
28 1
|
1天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
20 2
|
22天前
|
数据采集 开发者 Python
Python爬虫实战:利用Beautiful Soup解析网页数据
在网络爬虫的开发过程中,数据解析是至关重要的一环。本文将介绍如何利用Python的Beautiful Soup库来解析网页数据,包括解析HTML结构、提取目标信息和处理特殊情况,帮助开发者更好地实现爬虫功能。
|
24天前
|
数据采集 机器学习/深度学习 搜索推荐
探索数据之海——网络爬虫与数据抓取技术的应用与发展
在当今信息爆炸的时代,获取大量高质量的数据成为各行各业的迫切需求。网络爬虫和数据抓取技术作为一种有效的手段,正在被广泛应用于各个领域。本文将深入探讨网络爬虫的原理、应用场景以及未来的发展趋势,为读者带来关于数据抓取技术的全面了解。
73 5
|
25天前
|
Web App开发 数据采集 JavaScript
【Python爬虫】<万物可爬>Selenium+自动化测试工具 获取数据
【1月更文挑战第22天】【Python爬虫】<万物可爬>Selenium+自动化测试工具 获取数据
|
25天前
|
数据采集 大数据 调度
利用aiohttp异步爬虫实现网站数据高效抓取
利用aiohttp异步爬虫实现网站数据高效抓取
|
29天前
|
数据采集 数据挖掘 数据处理
探索数据世界之门:Python爬虫与数据抓取技术
在信息爆炸的时代,数据成为了无处不在、无所不包的珍贵资源。而Python爬虫与数据抓取技术作为一道通向数据世界的大门,为我们提供了强大的工具和方法。本文将深入探讨Python爬虫的原理与应用,以及数据抓取技术的重要性,帮助读者更好地了解并利用这一技术。
|
1月前
|
数据采集 搜索推荐 数据处理
探索数据的无尽可能性:网络爬虫与数据抓取技术
本文将深入探讨网络爬虫与数据抓取技术的重要性和应用,介绍其在信息收集、市场分析、学术研究等领域的广泛应用。我们将探索这一技术的原理、挑战和发展前景,并展望未来数据抓取技术的潜力。
28 0
|
1月前
|
数据采集 JSON API
使用phpQuery库进行网页数据爬虫案例
使用phpQuery库进行网页数据爬虫案例
|
2月前
|
数据采集 数据库
爬虫增量抓取
爬虫增量抓取
106 3