DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

简介: DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)


目录

利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果

实现代码


 

 

 

利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果

1. Save success! F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv
2. <class 'pandas.core.frame.DataFrame'>
3. RangeIndex: 6 entries, 0 to 5
4. Data columns (total 11 columns):
5.  #   Column            Non-Null Count  Dtype  
6. ---  ------            --------------  -----  
7. 0   Name              6 non-null      object
8. 1   Sex               6 non-null      object
9. 2   Age               6 non-null      int64  
10. 3   Age02             5 non-null      float64
11. 4   Capitalisation    6 non-null      object
12. 5   Capitalisation02  6 non-null      object
13. 6   Education         6 non-null      object
14. 7   Company           6 non-null      object
15. 8   StockMarket       6 non-null      object
16. 9   Score             6 non-null      int64  
17. 10  Others            6 non-null      object
18. dtypes: float64(1), int64(2), object(8)
19. memory usage: 656.0+ bytes
20. None
21.    Unnamed: 0 Name Sex  Age  Age02  ...  Education Company  StockMarket Score Others
22. 0           0   马云   男   56   56.0  ...          1    阿里巴巴           美股     3    150
23. 1           1  马化腾   男   49   49.0  ...          1      腾讯           港股     2    200
24. 2           2  李彦宏   男   51   51.0  ...          2      百度           美股    -3     50
25. 3           3  刘强东   男   47   47.0  ...          1      京东           美股    -8      0
26. 4           4  董明珠   女   66   66.0  ...          2      格力           A股    -2    300
27. 
28. [5 rows x 12 columns]
29. T1、统计某一【类别型】列StockMarket中各个值出现的次数: 
30.  美股     3
31. A股     1
32. 未上市    1
33. 港股     1
34. Name: StockMarket, dtype: int64
35. T2、统计某一【类别型】列StockMarket中各个值出现的次数: 
36.  美股    2
37. 港股    1
38. Name: StockMarket, dtype: int64

 

实现代码

1. #DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)
2. 
3. import pandas as pd
4. from NDataScience.Makedata import data2csv
5. data_frame=pd.read_csv('F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv')
6. print(data_frame.head())
7. 
8. 
9. CatColumn_name='StockMarket'
10. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].value_counts()[:4]) 
11. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].head(3).value_counts()) 
12. 
13. 
14. 
15. data_frame[CatColumn_name].value_counts().plot(kind='bar')
16. plt.xlabel(CatColumn_name)
17. plt.xticks(rotation=0)
18. plt.title('Distribution of category type columns')        
19. plt.show()

 

相关文章
|
4天前
|
Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数变换数据。示例代码:导入pandas,定义一个包含&#39;Name&#39;和&#39;Age&#39;列的DataFrame,使用`melt()`转为长格式,再用`pivot()`恢复为宽格式。
31 1
|
4天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by=&#39;A&#39;, ascending=False)`。`rank()`函数用于计算排名,如`df[&#39;A&#39;].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=[&#39;A&#39;, &#39;B&#39;], ascending=[True, False])`和分别对&#39;A&#39;、&#39;B&#39;列排名。
24 2
|
4天前
|
存储 Python
使用Pandas库对非数值型数据进行排序和排名
在Pandas中,支持对非数值型数据排序和排名。可按以下方法操作:1) 字符串排序,使用`sort_values()`,如`sorted_df = df.sort_values(by=&#39;Name&#39;, ascending=False)`进行降序排序;2) 日期排序,先用`to_datetime()`转换,再排序,如`sorted_df = df.sort_values(by=&#39;Date&#39;)`;3) 自定义排序,结合`argsort()`和自定义规则。
27 2
|
4天前
|
索引 Python
如何使用Python的Pandas库进行数据合并和拼接?
Pandas的`merge()`函数用于数据合并,如示例所示,根据&#39;key&#39;列对两个DataFrame执行内连接。`concat()`函数用于数据拼接,沿轴0(行)拼接两个DataFrame,并忽略原索引。
39 2
|
4天前
|
数据采集 数据可视化 数据挖掘
利用Python和Pandas库优化数据分析流程
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要依据。Python作为一种强大且易于上手的编程语言,配合Pandas这一功能丰富的数据处理库,极大地简化了数据分析的流程。本文将探讨如何利用Python和Pandas库进行高效的数据清洗、转换、聚合以及可视化,从而优化数据分析的流程,提高数据分析的效率和准确性。
|
4天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
4天前
|
Serverless Python
使用Python的pandas和matplotlib库绘制移动平均线(MA)示例
使用Python的pandas和matplotlib库绘制移动平均线(MA)示例:加载CSV数据,计算5日、10日和20日MA,然后在K线图上绘制。通过`rolling()`计算平均值,`plot()`函数展示图表,`legend()`添加图例。可利用matplotlib参数自定义样式。查阅matplotlib文档以获取更多定制选项。
37 1
|
4天前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
4天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
27 0
|
4天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
47 9