用Python分析了1741家大裤衩数据进行分析,终于找到可以买入那一条

简介: 大家好,我是志斌~最近的几天真的是太热了,志斌翻了翻自己的衣柜,发现去年的大裤衩已经不在适合自己现在肥胖的体型,所以志斌打开淘宝,搜索了1741条大裤衩的数据,然后进行了可视化分析,最终找到一条可以入手的大裤衩。

01数据采集


淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对selenium进行了反爬限制,所以我们要换种思路来进行数据获取。


因为篇幅问题,数据采集的方式在这里就不在过多的讲解,有兴趣的小伙伴可以看看这篇文章,它详细的介绍了淘宝商品数据的获取方式,我们这里只展示核心代码。


response = requests.get('https://s.taobao.com/search', headers=headers, params=params)
shangpinming = re.findall('"raw_title":"(.*?)"', response.text)
jiage = re.findall('"view_price":"(.*?)"', response.text)
fahuodi = re.findall('"item_loc":"(.*?)"', response.text)
fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text)
dianpumingcheng = re.findall('"nick":"(.*?)"', response.text)
for i in range(44):
   try:
       if (fukuanrenshu[i] == '1.5万+'):
           f = 15000
       elif (fukuanrenshu[i] == '1.0万+'):
           f = 10000
       elif ('+'in fukuanrenshu[i]):
           f = re.findall('\d+', fukuanrenshu[i])
       else:
           f = fukuanrenshu[i]
       if float(jiage[i]) > 10:
           sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])


02数据清洗


01导入商品数据


用pandas读取爬取后的商品数据并预览。


df = pd.read_excel('裤衩男.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
print(df.head())



7.png


删除重复数据


df.drop_duplicates()


03查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()


8.png


03数据可视化


我们来对这1741条大裤衩的数据进行可视化分析。


01

在售的大裤衩的特点。


通过对大裤衩的商品名称进行词云图绘制,志斌发现,大裤衩的主要特点是宽松,其次是休闲和运动。仔细想来,夏天的时候大家的穿着确实是比较宽松和休闲的。


9.png



各省市产量分布图


通过对各商品的产地数据进行统计并绘制了全国地图,我们发现福建和浙江这两个地方盛产大裤衩。


10.jpg


我们对这两个省份的数据进行更一步的分析发现:福建省的大裤衩主产地在泉州,占据全省产量的70.4%


11.png


浙江省的大裤衩主产地在杭州,占据全省产量的87.4%。


12.png


各价位商品数量图


通过对商品价格进行分段可视化,我们可以看出100元以下的大裤衩占据全部市场的77.4%,可见大家对大裤衩的心理价位选择普遍较低。


13.png


大裤衩月销量top20商家


通过对各商品月销售量进行可视化分析,我们发现,巴布衫旗舰店的月销量最多是10000。语克旗舰店的商品在月销量top20中占据6个,top5中占据了3个,看来这个旗舰店的商品受大众喜欢的类型更多。同时我们还能看出,用户们更喜欢去旗舰店和专卖店进行购物。



14.png


选择合适的大裤衩并入手


经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,志斌最终选择购买这条大裤衩来入手。


15.png



05小结


1. 本文仅供学习研究使用,提供的评论仅供参考。如有不妥之处请及时告知作者。

2. 如需代码,请联系作者进行获取。


相关文章
|
2月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1214 1
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
398 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
3月前
|
缓存 监控 算法
item_get - Lazada 商品详情详情接口深度分析及 Python 实现
Lazada商品详情接口item_get可获取商品全维度数据,包括价格、库存、SKU、促销及卖家信息,支持东南亚六国站点,适用于竞品监控、定价策略与市场分析,助力跨境卖家精准决策。
|
3月前
|
缓存 监控 算法
唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现
唯品会item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商数据分析、竞品监控与市场调研。结合Python可实现搜索、分析、可视化及数据导出,助力精准决策。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。

推荐镜像

更多