用这种方式转换第三列会出错,因为这列里包含一个代表 0 的下划线,pandas 无法自动判断这个下划线。为了解决这个问题,可以使用 to_numeric() 函数来处理第三列,让 pandas 把任意无效输入转为 NaN。
8.优化 DataFrame 对内存的占用
方法一:只读取切实所需的列,使用usecols参数
方法二:把包含类别型数据的 object 列转换为 Category 数据类型,通过指定 dtype 参数实现。
9.根据最大的类别筛选 DataFrame
10.把字符串分割为多列
11.把 Series 里的列表转换为 DataFrame
12.用多个函数聚合
13.分组聚合
通过字典或Series进行分组