Python数据分析实例操作

简介: import pandas as pd #导入pandasimport matplotlib.pyplot as plt #导入matplotlibfrom pylab import *mpl.
import pandas as pd  #导入pandas
import matplotlib.pyplot as plt #导入matplotlib
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False
%matplotlib inline
AI 代码解读

数据读取与索引

bra = pd.read_csv('data/bra.csv')
bra.head()
AI 代码解读

img_13fb5f7479601db9e3451d6985cce691.png

选取列

bra.content
AI 代码解读

img_d3fb6598675094232a238a71ebed029e.png

bra[['creationTime','productColor']].head()
AI 代码解读

img_a25bdd17bf17ae171d9f0a4e93b77d5f.png

选择行

bra[1:6]
AI 代码解读

img_e24c548d4903d9445d3161521156ffb4.png

选择行和列

bra.ix[[2,3],[1,3]]  #使用ix
AI 代码解读

img_525b89aa19fece137451c8d21d3acbd2.png

bra.ix[1:5,['productColor']]  
AI 代码解读

img_739ec1279a71d9db4d7fbf41fbec4695.png

bra.iloc[[2,3],[1,3]] #使用iloc
AI 代码解读

img_1fa82c81b526a9ad0885c5c462aedad1.png

bra.loc[1:5,['content','creationTime','productSize']] #使用loc
AI 代码解读

img_be167d03c15a6868e93e8b025ecc3422.png

bra.loc[1:5,'content':'userClientShow']
AI 代码解读

img_8172c81539e0124494c219cfd0f4bda7.png

数据预处理

缺失值

bra.describe() #查看数据的分布情况,可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息
AI 代码解读

img_7da23b9b5c1d20b87ca5b8789bd8f886.png

bra['userClientShow'].unique()  #userClientShow列有几种选项
AI 代码解读

img_780f280b82d6f7d243900a90b5e54296.png

bra['userClientShow'].isnull().sum() #初始缺失值数量
AI 代码解读

img_35330d53f13b354f49a82fa3d848d4c6.png

bra['userClientShow'].fillna('不详',inplace=True) #缺失值替换为“不详”

bra['userClientShow'].isnull().sum() #赋值后的缺失值数量
AI 代码解读

img_27c2d2681bb90415dce5c971d9cca609.png

新增列

bra.dtypes #查看属性
AI 代码解读

img_4a01147fd52e2f9501f986b75651facd.png

bra['creationTime'] = pd.to_datetime(bra['creationTime']) #更新类型
bra.dtypes
AI 代码解读

img_10ecb79f42afaba32514523dc49b3844.png

bra['hour'] = [i.hour for i in bra['creationTime']] #新建hour列
bra
AI 代码解读

img_b291940f86159807cb2267ef629dd872.png

字符串操作

bra.productSize.unique() #查看productSize的唯一值
AI 代码解读

img_2ef04831ff7efc343c1d15a0c0513436.png

cup = bra.productSize.str.findall('[a-zA-Z]+').str[0] #新增列cup
cup2 = cup.str.replace('M','B')
cup3 = cup2.str.replace('L','C')
cup4 = cup3.str.replace('XC','D')
bra['cup'] = cup4  
bra.head()
AI 代码解读

img_9d2e9cace35cbf25d1b317e3de728705.png

bra['cup'].unique() #查看cup唯一值
AI 代码解读

img_5e8d2fab7f8a127fc6df20949ea472c9.png

数据转换

bra.productColor.unique() #查看productColor唯一值
AI 代码解读

img_37a3615c6f902a3ba58419a647172c81.png

def getColor(s):
    if '黑' in s:
        return '黑色'
    elif '肤' in s:
        return '肤色'
    elif '蓝' in s:
        return '蓝色'
    elif '红' in s:
        return '红色'
    elif '紫' in s:
        return '紫色'
    elif '白' in s:
        return '白色'
    elif '粉' in s:
        return '粉色'
    elif '灰' in s:
        return '灰色'
    elif '绿' in s:
        return '绿色'
    elif '青' in s:
        return '青色'
    else:
        return s
bra['color'] = bra['productColor'].map(getColor) #从productColor列查询,赋值到定义的函数getColor,最终新增列color
bra
AI 代码解读

img_cd8940a9aba0c60af6a281842297a4a5.png

bra.color.unique() #查询color的唯一值
AI 代码解读

img_7ee15f25c28a09ff5be2db824dacc7d2.png

数据可视化

x = [1991,1992,1993,1994,1995,1996,1997]
y = [23,56,38,29,34,56,92]
plt.plot(x,y) #调用函数plot
AI 代码解读

img_598c836897e06bf6d9ca0e75a3fc9bc4.png

plt.figure(figsize=(8,6),dpi=80) #调用函数firgure
plt.plot(x,y)
AI 代码解读

img_aaba207b291d0443db93828cabb4bcca.png

hour = bra.groupby('hour')['hour'].count()  #hour列排序
hour
AI 代码解读

img_f9c5c0e360aa1f78214240f362501f22.png

plt.xlim(0,25) #横轴0~25
plt.plot(hour,linestyle='solid',color='royalblue',marker='8') #颜色深蓝
AI 代码解读

img_b68758302e6b9b3bd98b2aac45f2c361.png

cup_style = bra.groupby('cup')['cup'].count() #cup列唯一值得数量
cup_style
AI 代码解读

img_0a94c2d34687ecbb62c0d8e13876b71f.png

plt.figure(figsize=(8,6),dpi=80)
labels = list(cup_style.index)
plt.xlabel('cup') #x轴为cup
plt.ylabel('count') #y轴为count数量
plt.bar(range(len(labels)),cup_style,color='royalblue',alpha=0.7) #alpha为透明度
plt.xticks(range(len(labels)),labels,fontsize=12)
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='y',alpha=0.6)
plt.legend(['user-count'])
for x,y in zip(range(len(labels)),cup_style):
plt.text(x,y,y,ha='center',va='bottom')
AI 代码解读

img_61a5a140de9b2178449381c5025fe196.png

color_style = bra.groupby('color')['color'].count() #color列唯一值得数量
color_style
AI 代码解读

img_fc4685880bb23f481c243e445e758e38.png

plt.figure(figsize=(8,6),dpi=80)
plt.subplot(facecolor='gainsboro',alpha=0.2)
colors = ['brown','orange','gray','white','pink','purple','red','green','wheat','blue','gold','springgreen','black'] #颜色种类
labels = list(color_style.index)
plt.xlabel('count') #x轴为count数量
plt.ylabel('color') #y轴为color
plt.title('Color Distribution') #定义标题
plt.barh(range(len(labels)),color_style,color=colors,alpha=1)
plt.yticks(range(len(labels)),labels,fontsize=12)
plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='x',alpha=0.4)
AI 代码解读

img_52fa8d3d9de5c64fd22f099c9fbfdcf4.png

bra.head(30)
AI 代码解读

img_30d1abcadb99b329852d2a923f3a048c.png

知识在于点滴积累
目录
相关文章
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
105 3
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
125 34
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
本书介绍了如何将Python与Excel结合使用,以提升数据分析和处理效率。内容涵盖Python入门、pandas库的使用、通过Python包操作Excel文件以及使用xlwings对Excel进行编程。书中详细讲解了Anaconda、Visual Studio Code和Jupyter笔记本等开发工具,并探讨了NumPy、DataFrame和Series等数据结构的应用。此外,还介绍了多个Python包(如OpenPyXL、XlsxWriter等)用于在无需安装Excel的情况下读写Excel文件,帮助用户实现自动化任务和数据处理。
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
48 0
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
让UE自动运行Python脚本:实现与实例解析
本文介绍如何配置Unreal Engine(UE)以自动运行Python脚本,提高开发效率。通过安装Python、配置UE环境及使用第三方插件,实现Python与UE的集成。结合蓝图和C++示例,展示自动化任务处理、关卡生成及数据分析等应用场景。
206 5
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
161 5
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势
Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等