DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

简介: DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果


image.png


Save success! F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 6 entries, 0 to 5

Data columns (total 11 columns):

#   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

0   Name              6 non-null      object

1   Sex               6 non-null      object

2   Age               6 non-null      int64  

3   Age02             5 non-null      float64

4   Capitalisation    6 non-null      object

5   Capitalisation02  6 non-null      object

6   Education         6 non-null      object

7   Company           6 non-null      object

8   StockMarket       6 non-null      object

9   Score             6 non-null      int64  

10  Others            6 non-null      object

dtypes: float64(1), int64(2), object(8)

memory usage: 656.0+ bytes

None

  Unnamed: 0 Name Sex  Age  Age02  ...  Education Company  StockMarket Score Others

0           0   马云   男   56   56.0  ...          1    阿里巴巴           美股     3    150

1           1  马化腾   男   49   49.0  ...          1      腾讯           港股     2    200

2           2  李彦宏   男   51   51.0  ...          2      百度           美股    -3     50

3           3  刘强东   男   47   47.0  ...          1      京东           美股    -8      0

4           4  董明珠   女   66   66.0  ...          2      格力           A股    -2    300

[5 rows x 12 columns]

T1、统计某一【类别型】列StockMarket中各个值出现的次数:

美股     3

A股     1

未上市    1

港股     1

Name: StockMarket, dtype: int64

T2、统计某一【类别型】列StockMarket中各个值出现的次数:

美股    2

港股    1

Name: StockMarket, dtype: int64


实现代码


#DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

import pandas as pd

from NDataScience.Makedata import data2csv

data_frame=pd.read_csv('F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv')

print(data_frame.head())

CatColumn_name='StockMarket'

print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].value_counts()[:4])

print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].head(3).value_counts())

 

data_frame[CatColumn_name].value_counts().plot(kind='bar')

plt.xlabel(CatColumn_name)

plt.xticks(rotation=0)

plt.title('Distribution of category type columns')        

plt.show()




相关文章
|
9天前
|
数据采集 机器学习/深度学习 数据可视化
利用Python和Pandas库构建高效的数据分析流程
在数据驱动的时代,数据分析已成为企业决策的关键环节。本文介绍如何利用Python编程语言及其强大的数据分析库Pandas,构建一套高效且可扩展的数据分析流程。与常规的数据分析流程不同,本文不仅涵盖数据加载、清洗、转换等基础步骤,还强调数据可视化、模型探索与评估等高级分析技巧,并通过实际案例展示如何在Python中实现这些步骤,为数据分析师提供一套完整的数据分析解决方案。
|
1天前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python 3的Pandas库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
8 0
|
2月前
|
数据采集 数据可视化 数据处理
Python中的高效数据处理:Pandas库详解
Python中的高效数据处理:Pandas库详解
49 2
|
2月前
|
数据采集 数据挖掘 Serverless
利用Python和Pandas库优化数据清洗流程
在数据分析项目中,数据清洗是至关重要的一步。传统的数据清洗方法往往繁琐且易出错。本文将介绍如何利用Python编程语言中的Pandas库,通过其强大的数据处理能力,实现高效、自动化的数据清洗流程。我们将探讨Pandas库在数据清洗中的应用,包括缺失值处理、重复值识别、数据类型转换等,并通过一个实际案例展示如何利用Pandas优化数据清洗流程,提升数据质量。
|
2月前
|
数据采集 数据可视化 数据处理
利用Python和Pandas库实现高效的数据处理与分析
在大数据和人工智能时代,数据处理与分析已成为不可或缺的一环。Python作为一门强大的编程语言,结合Pandas库,为数据科学家和开发者提供了高效、灵活的数据处理工具。本文将介绍Pandas库的基本功能、优势,并通过实际案例展示如何使用Pandas进行数据清洗、转换、聚合等操作,以及如何利用Pandas进行数据可视化,旨在帮助读者深入理解并掌握Pandas在数据处理与分析中的应用。
|
2月前
|
架构师 数据挖掘 Python
最全pandas库(Python),2024年最新阿里云架构师面试
最全pandas库(Python),2024年最新阿里云架构师面试
最全pandas库(Python),2024年最新阿里云架构师面试
|
2月前
|
数据采集 SQL 数据处理
Python中的Pandas库:数据处理与分析的利器
Python中的Pandas库:数据处理与分析的利器
37 0
|
2月前
|
数据采集 SQL 数据可视化
使用Python和Pandas库进行数据分析的入门指南
使用Python和Pandas库进行数据分析的入门指南
85 0
|
2月前
|
Python
python相关库的安装:pandas,numpy,matplotlib,statsmodels
python相关库的安装:pandas,numpy,matplotlib,statsmodels
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python和Pandas库优化数据分析流程
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要依据。Python作为一种强大且易于上手的编程语言,配合Pandas这一功能丰富的数据处理库,极大地简化了数据分析的流程。本文将探讨如何利用Python和Pandas库进行高效的数据清洗、转换、聚合以及可视化,从而优化数据分析的流程,提高数据分析的效率和准确性。