ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

简介: ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果


name      object

ID        object

age       object

sex       object

hobbey    object

dtype: object

  name    ID  age   sex hobbey

0   Bob     1  NaN     男    打篮球

1  LiSa     2   28     女   打羽毛球

2  Mary         38     女   打乒乓球

3  Alan  None       None      

-----------------------------------------

输出数据形状: (3, 6)

导出数据成功!

    0     1    2    3    4     5

1  0.0   Bob    1  NaN    男   打篮球

3  2.0  Mary        38    女  打乒乓球

4  3.0  Alan  NaN  NaN  NaN   NaN



实现代码


import pandas as pd

import numpy as np

contents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],

         "ID":   [1,              2,                         ' ',                          None],    # 输出 NaN

         "age":  [np.nan,        28,                           38 ,                          '' ],    # 输出

#           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT

         "sex":  ['男',          '女',                        '女',                        None,],    # 输出 None

         "hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出

         }

data_frame = pd.DataFrame(contents)

data_frame.to_excel("data_Frame.xls")

print(data_frame.dtypes)

print(data_frame)

print('-----------------------------------------')

data_frame_temp=data_frame.copy()

file_path_in='data_Frame.xls'

file_path_out='data_Frame_Sampling.xls'

# ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

import pandas as pd

data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名

data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2

print("输出数据形状:",data_all_Sampling.shape)    

data_all_Sampling.to_csv(file_path_out)

print('导出数据成功!')

print(data_all_Sampling)



相关文章
|
6天前
|
数据挖掘 数据处理 Python
​掌握Pandas中的rolling窗口,轻松处理时间序列数据
​掌握Pandas中的rolling窗口,轻松处理时间序列数据
20 1
|
4天前
|
索引 Python
使用 pandas 对数据进行移动计算
使用 pandas 对数据进行移动计算
8 0
|
6天前
|
数据挖掘 数据处理 Python
Pandas中groupby后的数据排序技巧
Pandas中groupby后的数据排序技巧
11 0
|
6天前
|
数据采集 运维 数据挖掘
Pandas中的Rank用法:数据排序的高效工具
Pandas中的Rank用法:数据排序的高效工具
14 0
|
6天前
|
数据采集 数据挖掘 数据处理
Pandas技巧:如何将一列数据轻松分隔为两列
Pandas技巧:如何将一列数据轻松分隔为两列
19 0
|
6天前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
18 0
|
3月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
65 1
|
3月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
176 0
|
22天前
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化
|
6天前
|
Python
Python:Pandas实现批量删除Excel中的sheet
Python:Pandas实现批量删除Excel中的sheet
20 0
下一篇
无影云桌面