前言
在一些情况下,数据不太均衡,这时候我们需要对数据集进行随机的抽样,而Pandas库中自带了抽样的方法
一、函数介绍
# 参数介绍 # n:要抽取的行数 # frac:当我们需要抽取数据的百分比时,我们需要用到这个参数。 # 注意:frac和n参数不可以同时使用。 # replace: 是否允许重复抽样,默认情况下为False # weights:代表的是每个样本的权重。 # random_state: 随机种子,给定一个具体的数字,保证每次抽样的数据都是相同的。 # axis: 选择抽取数据的是行还是列,axis=0时抽取的是行,axis=1的时候抽取的是列。默认情况下axis=0,即抽取的是行。 DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
二、函数使用
import pandas as pd # mean:抽取样本20000行,允许重复抽样,随机种子选取为666,可以调整random_state来让自己的实验效果达到很好。 df.sample(n=20000, replace=True, random_state=666)
参考文章:
总结
中午没有睡觉,真的很困。