用Python分析了1741家大裤衩数据进行分析,终于找到可以买入那一条

简介: 大家好,我是志斌~最近的几天真的是太热了,志斌翻了翻自己的衣柜,发现去年的大裤衩已经不在适合自己现在肥胖的体型,所以志斌打开淘宝,搜索了1741条大裤衩的数据,然后进行了可视化分析,最终找到一条可以入手的大裤衩。

01数据采集


淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对selenium进行了反爬限制,所以我们要换种思路来进行数据获取。


因为篇幅问题,数据采集的方式在这里就不在过多的讲解,有兴趣的小伙伴可以看看这篇文章,它详细的介绍了淘宝商品数据的获取方式,我们这里只展示核心代码。


response = requests.get('https://s.taobao.com/search', headers=headers, params=params)
shangpinming = re.findall('"raw_title":"(.*?)"', response.text)
jiage = re.findall('"view_price":"(.*?)"', response.text)
fahuodi = re.findall('"item_loc":"(.*?)"', response.text)
fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text)
dianpumingcheng = re.findall('"nick":"(.*?)"', response.text)
for i in range(44):
   try:
       if (fukuanrenshu[i] == '1.5万+'):
           f = 15000
       elif (fukuanrenshu[i] == '1.0万+'):
           f = 10000
       elif ('+'in fukuanrenshu[i]):
           f = re.findall('\d+', fukuanrenshu[i])
       else:
           f = fukuanrenshu[i]
       if float(jiage[i]) > 10:
           sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])


02数据清洗


01导入商品数据


用pandas读取爬取后的商品数据并预览。


df = pd.read_excel('裤衩男.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
print(df.head())



7.png


删除重复数据


df.drop_duplicates()


03查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()


8.png


03数据可视化


我们来对这1741条大裤衩的数据进行可视化分析。


01

在售的大裤衩的特点。


通过对大裤衩的商品名称进行词云图绘制,志斌发现,大裤衩的主要特点是宽松,其次是休闲和运动。仔细想来,夏天的时候大家的穿着确实是比较宽松和休闲的。


9.png



各省市产量分布图


通过对各商品的产地数据进行统计并绘制了全国地图,我们发现福建和浙江这两个地方盛产大裤衩。


10.jpg


我们对这两个省份的数据进行更一步的分析发现:福建省的大裤衩主产地在泉州,占据全省产量的70.4%


11.png


浙江省的大裤衩主产地在杭州,占据全省产量的87.4%。


12.png


各价位商品数量图


通过对商品价格进行分段可视化,我们可以看出100元以下的大裤衩占据全部市场的77.4%,可见大家对大裤衩的心理价位选择普遍较低。


13.png


大裤衩月销量top20商家


通过对各商品月销售量进行可视化分析,我们发现,巴布衫旗舰店的月销量最多是10000。语克旗舰店的商品在月销量top20中占据6个,top5中占据了3个,看来这个旗舰店的商品受大众喜欢的类型更多。同时我们还能看出,用户们更喜欢去旗舰店和专卖店进行购物。



14.png


选择合适的大裤衩并入手


经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,志斌最终选择购买这条大裤衩来入手。


15.png



05小结


1. 本文仅供学习研究使用,提供的评论仅供参考。如有不妥之处请及时告知作者。

2. 如需代码,请联系作者进行获取。


相关文章
|
14天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
1月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
16天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
16天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
24 1
|
17天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
18天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
24天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
76 7
|
1月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
52 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
1月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
42 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
23天前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
29 3
下一篇
无影云桌面