目录
利用pandas库统计某一列col中各个值出现的次数(降序输出)
利用pandas库统计某一列col中各个值出现的次数(降序输出)
输出结果
1. Save success! F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv 2. <class 'pandas.core.frame.DataFrame'> 3. RangeIndex: 6 entries, 0 to 5 4. Data columns (total 11 columns): 5. # Column Non-Null Count Dtype 6. --- ------ -------------- ----- 7. 0 Name 6 non-null object 8. 1 Sex 6 non-null object 9. 2 Age 6 non-null int64 10. 3 Age02 5 non-null float64 11. 4 Capitalisation 6 non-null object 12. 5 Capitalisation02 6 non-null object 13. 6 Education 6 non-null object 14. 7 Company 6 non-null object 15. 8 StockMarket 6 non-null object 16. 9 Score 6 non-null int64 17. 10 Others 6 non-null object 18. dtypes: float64(1), int64(2), object(8) 19. memory usage: 656.0+ bytes 20. None 21. Unnamed: 0 Name Sex Age Age02 ... Education Company StockMarket Score Others 22. 0 0 马云 男 56 56.0 ... 1 阿里巴巴 美股 3 150 23. 1 1 马化腾 男 49 49.0 ... 1 腾讯 港股 2 200 24. 2 2 李彦宏 男 51 51.0 ... 2 百度 美股 -3 50 25. 3 3 刘强东 男 47 47.0 ... 1 京东 美股 -8 0 26. 4 4 董明珠 女 66 66.0 ... 2 格力 A股 -2 300 27. 28. [5 rows x 12 columns] 29. T1、统计某一【类别型】列StockMarket中各个值出现的次数: 30. 美股 3 31. A股 1 32. 未上市 1 33. 港股 1 34. Name: StockMarket, dtype: int64 35. T2、统计某一【类别型】列StockMarket中各个值出现的次数: 36. 美股 2 37. 港股 1 38. Name: StockMarket, dtype: int64
实现代码
1. #DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出) 2. 3. import pandas as pd 4. from NDataScience.Makedata import data2csv 5. data_frame=pd.read_csv('F:\File_Python\Resources\data_csv_xls\demo_dataset\data_test01.csv') 6. print(data_frame.head()) 7. 8. 9. CatColumn_name='StockMarket' 10. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].value_counts()[:4]) 11. print('统计某一【类别型】列%s中各个值出现的次数:'%CatColumn_name,'\n',data_frame[CatColumn_name].head(3).value_counts()) 12. 13. 14. 15. data_frame[CatColumn_name].value_counts().plot(kind='bar') 16. plt.xlabel(CatColumn_name) 17. plt.xticks(rotation=0) 18. plt.title('Distribution of category type columns') 19. plt.show()