DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

简介: DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)


目录

利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果

实现代码


 

 

 

利用pandas库统计某一列col中各个值出现的次数(降序输出)

输出结果

1. Save success! F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv
2. <class 'pandas.core.frame.DataFrame'>
3. RangeIndex: 6 entries, 0 to 5
4. Data columns (total 11 columns):
5.  #   Column            Non-Null Count  Dtype  
6. ---  ------            --------------  -----  
7. 0   Name              6 non-null      object
8. 1   Sex               6 non-null      object
9. 2   Age               6 non-null      int64  
10. 3   Age02             5 non-null      float64
11. 4   Capitalisation    6 non-null      object
12. 5   Capitalisation02  6 non-null      object
13. 6   Education         6 non-null      object
14. 7   Company           6 non-null      object
15. 8   StockMarket       6 non-null      object
16. 9   Score             6 non-null      int64  
17. 10  Others            6 non-null      object
18. dtypes: float64(1), int64(2), object(8)
19. memory usage: 656.0+ bytes
20. None
21.    Unnamed: 0 Name Sex  Age  Age02  ...  Education Company  StockMarket Score Others
22. 0           0   马云   男   56   56.0  ...          1    阿里巴巴           美股     3    150
23. 1           1  马化腾   男   49   49.0  ...          1      腾讯           港股     2    200
24. 2           2  李彦宏   男   51   51.0  ...          2      百度           美股    -3     50
25. 3           3  刘强东   男   47   47.0  ...          1      京东           美股    -8      0
26. 4           4  董明珠   女   66   66.0  ...          2      格力           A股    -2    300
27. 
28. [5 rows x 12 columns]
29. T1、统计某一【类别型】列StockMarket中各个值出现的次数: 
30.  美股     3
31. A股     1
32. 未上市    1
33. 港股     1
34. Name: StockMarket, dtype: int64
35. T2、统计某一【类别型】列StockMarket中各个值出现的次数: 
36.  美股    2
37. 港股    1
38. Name: StockMarket, dtype: int64

 

实现代码

1. #DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)
2. 
3. import pandas as pd
4. from NDataScience.Makedata import data2csv
5. data_frame=pd.read_csv('F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv')
6. print(data_frame.head())
7. 
8. 
9. CatColumn_name='StockMarket'
10. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].value_counts()[:4]) 
11. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].head(3).value_counts()) 
12. 
13. 
14. 
15. data_frame[CatColumn_name].value_counts().plot(kind='bar')
16. plt.xlabel(CatColumn_name)
17. plt.xticks(rotation=0)
18. plt.title('Distribution of category type columns')        
19. plt.show()

 

相关文章
|
13天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
41 0
|
1月前
|
数据采集 数据处理 Python
探索数据科学前沿:Pandas与NumPy库的高级特性与应用实例
探索数据科学前沿:Pandas与NumPy库的高级特性与应用实例
31 0
|
2月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
74 0
|
13天前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,&quot;死叉&quot;指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而&quot;金叉&quot;则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
29 2
|
16天前
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
35 5
|
14天前
|
Python
如何利用Pandas库找到最近一次死叉后未出现金叉的具体位置
在金融分析领域,&quot;死叉&quot;指短期移动平均线跌破长期移动平均线,而&quot;金叉&quot;则相反。本文介绍了一个Python示例,演示如何利用Pandas库找到最近一次死叉后未出现金叉的具体位置,包括计算移动平均线、确定交叉点、识别死叉和金叉,以及输出相关分析结果。此方法适用于各类包含收盘价数据的金融分析场景。
23 1
|
14天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
29 2
|
5天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
1月前
|
数据采集 监控 数据挖掘
CSV文件自动化生成:用Pandas与Datetime高效处理京东商品信息
在电商竞争激烈的背景下,实时掌握商品价格和库存信息至关重要。本文介绍如何使用Python的`pandas`和`datetime`库从京东抓取商品名称、价格等信息,并生成CSV文件。结合代理IP技术,提升爬取效率和稳定性。通过设置请求头、使用代理IP和多线程技术,确保数据抓取的连续性和成功率。最终,数据将以带时间戳的CSV文件形式保存,方便后续分析。
|
2月前
|
数据处理 Python
Pandas快速统计重复值的2种方法
Pandas快速统计重复值的2种方法
103 1

热门文章

最新文章