目录
数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
输出结果
1. name object 2. ID object 3. age object 4. sex object 5. hobbey object 6. dtype: object 7. name ID age sex hobbey 8. 0 Bob 1 NaN 男 打篮球 9. 1 LiSa 2 28 女 打羽毛球 10. 2 Mary 38 女 打乒乓球 11. 3 Alan None None 12. ----------------------------------------- 13. 输出数据形状: (3, 6) 14. 导出数据成功! 15. 0 1 2 3 4 5 16. 1 0.0 Bob 1 NaN 男 打篮球 17. 3 2.0 Mary 38 女 打乒乓球 18. 4 3.0 Alan NaN NaN NaN NaN
实现代码
1. import pandas as pd 2. import numpy as np 3. 4. contents={"name": ['Bob', 'LiSa', 'Mary', 'Alan'], 5. "ID": [1, 2, ' ', None], # 输出 NaN 6. "age": [np.nan, 28, 38 , '' ], # 输出 7. # "born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 输出 NaT 8. "sex": ['男', '女', '女', None,], # 输出 None 9. "hobbey":['打篮球', '打羽毛球', '打乒乓球', '',], # 输出 10. } 11. data_frame = pd.DataFrame(contents) 12. data_frame.to_excel("data_Frame.xls") 13. print(data_frame.dtypes) 14. print(data_frame) 15. print('-----------------------------------------') 16. data_frame_temp=data_frame.copy() 17. 18. 19. file_path_in='data_Frame.xls' 20. file_path_out='data_Frame_Sampling.xls' 21. # ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件 22. 23. import pandas as pd 24. data_all = pd.read_excel(file_path_in, header=None) # 取消读取csv或txt时默认第一行为列名 25. data_all_Sampling=data_all.sample(n=3,random_state=123) # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2 26. print("输出数据形状:",data_all_Sampling.shape) 27. data_all_Sampling.to_csv(file_path_out) 28. print('导出数据成功!') 29. print(data_all_Sampling) 30.