DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

简介: DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果


image.png


Save success! F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 6 entries, 0 to 5

Data columns (total 11 columns):

#   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

0   Name              6 non-null      object

1   Sex               6 non-null      object

2   Age               6 non-null      int64  

3   Age02             5 non-null      float64

4   Capitalisation    6 non-null      object

5   Capitalisation02  6 non-null      object

6   Education         6 non-null      object

7   Company           6 non-null      object

8   StockMarket       6 non-null      object

9   Score             6 non-null      int64  

10  Others            6 non-null      object

dtypes: float64(1), int64(2), object(8)

memory usage: 656.0+ bytes

None

  Unnamed: 0 Name Sex  Age  Age02  ...  Education Company  StockMarket Score Others

0           0   马云   男   56   56.0  ...          1    阿里巴巴           美股     3    150

1           1  马化腾   男   49   49.0  ...          1      腾讯           港股     2    200

2           2  李彦宏   男   51   51.0  ...          2      百度           美股    -3     50

3           3  刘强东   男   47   47.0  ...          1      京东           美股    -8      0

4           4  董明珠   女   66   66.0  ...          2      格力           A股    -2    300

[5 rows x 12 columns]

T1、统计某一【类别型】列StockMarket中各个值出现的次数:

美股     3

A股     1

未上市    1

港股     1

Name: StockMarket, dtype: int64

T2、统计某一【类别型】列StockMarket中各个值出现的次数:

美股    2

港股    1

Name: StockMarket, dtype: int64


实现代码


#DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

import pandas as pd

from NDataScience.Makedata import data2csv

data_frame=pd.read_csv('F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv')

print(data_frame.head())

CatColumn_name='StockMarket'

print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].value_counts()[:4])

print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].head(3).value_counts())

 

data_frame[CatColumn_name].value_counts().plot(kind='bar')

plt.xlabel(CatColumn_name)

plt.xticks(rotation=0)

plt.title('Distribution of category type columns')        

plt.show()




相关文章
|
Python
使用 Pandas 库时,如何处理数据的重复值?
在使用Pandas处理数据重复值时,需要根据具体的数据特点和分析需求,选择合适的方法来确保数据的准确性和唯一性。
895 64
|
数据采集 数据挖掘 数据处理
如何使用 Pandas 库进行数据清洗和预处理?
数据清洗和预处理是数据分析中至关重要的步骤,Pandas库提供了丰富的函数和方法来完成这些任务
728 64
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
365 0
|
机器学习/深度学习 数据挖掘 数据处理
Pandas库
Pandas库是Python中进行数据分析和处理的强大工具,通过其丰富的功能和简洁的API,可以高效地完成各种数据处理任务,为后续的数据分析和机器学习提供了有力的支持。
409 63
|
11月前
|
数据可视化 数据挖掘 定位技术
Pandas数据应用:地理信息系统
本文介绍如何使用Pandas结合地理信息系统(GIS)进行空间数据分析与可视化。Pandas是Python强大的数据处理库,而GIS用于捕获、存储和分析地理数据。通过安装`geopandas`、`matplotlib`等库,可以实现数据加载、转换、空间索引查询、投影变换及可视化等功能。文章详细讲解了常见问题及解决方案,并提供代码案例,帮助读者高效处理地理数据,支持决策分析。
258 26
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,&quot;死叉&quot;指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而&quot;金叉&quot;则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
270 2
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
309 2
|
Python
如何利用Pandas库找到最近一次死叉后未出现金叉的具体位置
在金融分析领域,&quot;死叉&quot;指短期移动平均线跌破长期移动平均线,而&quot;金叉&quot;则相反。本文介绍了一个Python示例,演示如何利用Pandas库找到最近一次死叉后未出现金叉的具体位置,包括计算移动平均线、确定交叉点、识别死叉和金叉,以及输出相关分析结果。此方法适用于各类包含收盘价数据的金融分析场景。
158 1
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南