小白爬虫第一篇——抓取淘宝文胸数据

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介:

小白爬虫系列的文章,顾名思义都是写给小白的,每一篇都是楼主都会选择一个网站进行实战,因为楼主觉得爬虫是一个力气活,只有在实战中才能提高战力啊。好了,话不多说,我们选择的第一个网站是淘宝,当然这次不是大规模抓取,大规模留到进阶篇。首先我们打开淘宝的首页,然后在搜索栏输入文胸(这里只是以文胸为例子,你喜欢写啥就写啥,本人测试无论输入哪种商品都可以),结果如图:


这里都是琳琅满目的文胸,然后楼主去网页的源代码看了看,商品的具体数据是JS动态加载的,不在源代码里面的,那么我们就找嘛,毕竟每页这么多的商品数据,找到这个JS文件也不难,因为淘宝的商品太多了,楼主就简单切换一下页数,果然在切换的时候抓到了这个js请求文件,如图


打开这个文件可以看到都是我们需要的商品数据


抓到这个文件就好办了,我们先分析一下这个请求,如图


这里的URL是超级长,当然我们可以适当调整的,url里面的很多参数去掉也是没有关系的,我们先把这个URL直接复制到浏览器打开,看看结果,如图


在大括号里面的是我们想要的数据,但是明显这里有个jsonp1035这段数字字母阻碍着我们解析里面这段数据,楼主是解析超久这段数据也没有成功啊当时,最好斗胆在网页中把这段字母数字去掉,居然是不妨碍我们访问的,改了之后的URL是这个 
https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q=文胸
好了,访问这个网站得到的数据就是干干净净的json数据了,可以直接在Python里面解析了,当然你可以不是文胸,我测试了很多商品都没有问题的。 
如下是代码,超级简单的,值得一提的是淘宝的数据隐藏得比较深,不是一个简单的字典,当时楼主不知道json在线解析器折腾了好久,里面商品的数据是在字典几个层次下面的,你要按照key-value一步步提取才可以,如图

data_dict就是那份淘宝数据解析成的字典,要取到后面第四个key,后面的数据才是我们要的商品数据



运行之后,随便输入你想要爬取的商品,然后都会被以csv的格式爬取下来的,里面有价格,交易次数,地点等数据,有兴趣的也可以分析一下哈,总结起来本次实战难点主要有两点: 
一、淘宝链接的提取以及修改 
二、具体数据的解析以及提取 
最后提一下,本篇爬取的是第一页,但是只爬一页明显是满足不了楼主和各位的啊,楼主翻了翻,其实页数是有规律的,如图

页数都是有数字规律的,当然第一篇我们简单爬取就好了,等我下几篇教会了大家如何写简单的代理池,我们再回来大规模爬微信或者京东淘宝这些网站,我们慢慢来。

好了,本篇实战介绍到这里,下次带带大家爬一爬链家某个区域房子的数据,保准学会,超级简单。



原文发布时间为:2017-03-17
本文作者:蜗牛仔
本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”微信公众号
相关文章
|
4天前
|
数据采集 JSON Java
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。
|
2天前
|
数据采集 存储 数据挖掘
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
|
9天前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
2月前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据采集 安全 定位技术
使用代理IP爬虫时数据不完整的原因探讨
在信息化时代,互联网成为生活的重要部分。使用HTTP代理爬取数据时,可能会遇到失败情况,如代理IP失效、速度慢、目标网站策略、请求频率过高、地理位置不当、网络连接问题、代理配置错误和目标网站内容变化等。解决方法包括更换代理IP、调整请求频率、检查配置及目标网站变化。
80 11
|
3月前
|
数据采集 JSON JavaScript
如何通过PHP爬虫模拟表单提交,抓取隐藏数据
本文介绍了如何使用PHP模拟表单提交并结合代理IP技术抓取京东商品的实时名称和价格,特别是在电商大促期间的数据采集需求。通过cURL发送POST请求,设置User-Agent和Cookie,使用代理IP绕过限制,解析返回数据,展示了完整代码示例。
如何通过PHP爬虫模拟表单提交,抓取隐藏数据
|
2月前
|
数据采集 Java Scala
淘宝图片爬虫:Scala与Curl的高效集成
淘宝图片爬虫:Scala与Curl的高效集成
|
3月前
|
数据采集 JavaScript 网络安全
为什么PHP爬虫抓取失败?解析cURL常见错误原因
豆瓣电影评分是电影市场的重要参考,通过网络爬虫技术可以高效采集评分数据,帮助电影制作和发行方优化策略。本文介绍使用PHP cURL库和代理IP技术抓取豆瓣电影评分的方法,解决反爬机制、网络设置和数据解析等问题,提供详细代码示例和优化建议。
107 0
为什么PHP爬虫抓取失败?解析cURL常见错误原因
|
3月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
194 6