ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

2022-07-24 382

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

实现代码

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

1. name      object
2. ID        object
3. age       object
4. sex       object
5. hobbey    object
6. dtype: object
7.    name    ID  age   sex hobbey
8. 0   Bob     1  NaN     男    打篮球
9. 1  LiSa     2   28     女   打羽毛球
10. 2  Mary         38     女   打乒乓球
11. 3  Alan  None       None
12. -----------------------------------------
13. 输出数据形状： (3, 6)
14. 导出数据成功！
15. 0     1    2    3    4     5
16. 1  0.0   Bob    1  NaN    男   打篮球
17. 3  2.0  Mary        38    女  打乒乓球
18. 4  3.0  Alan  NaN  NaN  NaN   NaN

实现代码

1. import pandas as pd
2. import numpy as np
3. 
4. contents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],
5. "ID":   [1,              2,                         ' ',                          None],    # 输出 NaN
6. "age":  [np.nan,        28,                           38 ,                          '' ],    # 输出 
7. #           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT
8. "sex":  ['男',          '女',                        '女',                        None,],    # 输出 None
9. "hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出 
10.           }
11. data_frame = pd.DataFrame(contents)
12. data_frame.to_excel("data_Frame.xls")
13. print(data_frame.dtypes)
14. print(data_frame)
15. print('-----------------------------------------')
16. data_frame_temp=data_frame.copy()
17. 
18. 
19. file_path_in='data_Frame.xls'
20. file_path_out='data_Frame_Sampling.xls'
21. # ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件
22. 
23. import pandas as pd
24. data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名
25. data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100，或者随机选取20%的数据 frac=0.2
26. print("输出数据形状：",data_all_Sampling.shape)    
27. data_all_Sampling.to_csv(file_path_out) 
28. print('导出数据成功！')
29. print(data_all_Sampling)
30.

ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

实现代码

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

实现代码

热门文章

最新文章

相关课程

相关电子书