ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

简介: ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

目录

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果

实现代码


 

 

 

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果

1. name      object
2. ID        object
3. age       object
4. sex       object
5. hobbey    object
6. dtype: object
7.    name    ID  age   sex hobbey
8. 0   Bob     1  NaN     男    打篮球
9. 1  LiSa     2   28     女   打羽毛球
10. 2  Mary         38     女   打乒乓球
11. 3  Alan  None       None
12. -----------------------------------------
13. 输出数据形状: (3, 6)
14. 导出数据成功!
15. 0     1    2    3    4     5
16. 1  0.0   Bob    1  NaN    男   打篮球
17. 3  2.0  Mary        38    女  打乒乓球
18. 4  3.0  Alan  NaN  NaN  NaN   NaN

 

 

实现代码

1. import pandas as pd
2. import numpy as np
3. 
4. contents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],
5. "ID":   [1,              2,                         ' ',                          None],    # 输出 NaN
6. "age":  [np.nan,        28,                           38 ,                          '' ],    # 输出 
7. #           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT
8. "sex":  ['男',          '女',                        '女',                        None,],    # 输出 None
9. "hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出 
10.           }
11. data_frame = pd.DataFrame(contents)
12. data_frame.to_excel("data_Frame.xls")
13. print(data_frame.dtypes)
14. print(data_frame)
15. print('-----------------------------------------')
16. data_frame_temp=data_frame.copy()
17. 
18. 
19. file_path_in='data_Frame.xls'
20. file_path_out='data_Frame_Sampling.xls'
21. # ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
22. 
23. import pandas as pd
24. data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名
25. data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2
26. print("输出数据形状:",data_all_Sampling.shape)    
27. data_all_Sampling.to_csv(file_path_out) 
28. print('导出数据成功!')
29. print(data_all_Sampling)
30.

 


相关文章
|
11天前
|
Python
|
10天前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
27 1
|
11天前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
8 1
|
10天前
|
BI Python
Pandas 常用函数-数据统计和描述
Pandas 常用函数-数据统计和描述
27 0
|
10天前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
9 0
|
16天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
45 0
|
2月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
76 0
|
17天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
30 2
|
1月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
86 3
|
1月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
40 1