【Pandas】concat用法和栗子

简介: 比赛中经常用到数据处理,当需要对某些表的列数据进行拼接时则会用到concatAPI,关于直观上的图形拼接栗子可以参考pandas的concat函数和append方法。

一、函数介绍和参数含义

比赛中经常用到数据处理,当需要对某些表的列数据进行拼接时则会用到concatAPI,关于直观上的图形拼接栗子可以参考pandas的concat函数和append方法。

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

其中上面的参数含义为:


objs:Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。

axis:{0,1,…},默认为0。沿着连接的轴。

join:{‘inner’,‘outer’},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。

ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,…,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。

join_axes:Index对象列表。用于其他n-1轴的特定索引,而不是执行内部/外部设置逻辑。

keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。

levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。

names:list,default无。结果层次索引中的级别的名称。

verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。

copy:boolean,default True。如果为False,请勿不必要地复制数据。

二、举例

# -*- coding: utf-8 -*-
"""
Created on Tue Sep 28 10:14:46 2021
@author: 86493
"""
import pandas as pd
s1 = pd.Series(['andy', 'guo'])
s2 = pd.Series(['li', 'fei'])
# 将两个series拼接在一起
pd.concat([s1, s2]) 
"""
0    andy
1     guo
0      li
1     fei
dtype: object
"""
pd.concat([s1, s2], ignore_index = True)  
# 清除之前存在的index,改为从0按顺序开始 
"""
0    andy
1     guo
2      li
3     fei
dtype: object
"""
# 给原来基础上给每个series添加对应的key值
end1 = pd.concat([s1, s2], keys = ['s1', 's2'])
"""
s1  0    andy
    1     guo
s2  0      li
    1     fei
dtype: object
"""
print(end1['s1'])
"""
0    andy
1     guo
dtype: object
"""
print('-'*40)
# 给key加label
end2 = pd.concat([s1, s2], keys = ['s1', 's2'],
          names = ['Series name', 'Row ID'])
print(end2)
"""
Series name  Row ID
s1           0         andy
             1          guo
s2           0           li
             1          fei
dtype: object
"""
print('-'*40)
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                    columns = ['letter' , 'number']) 
print(df1)
"""
  letter  number
0      a       1
1      b       2
"""
print('-'*40)
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                    columns = ['letter' , 'number']) 
print(df2)
print('-'*40)
# 将两个dataframe的指定列拼接在一起
end3 = pd.concat([df1, df2])
print(end3)
"""
  letter  number
0      a       1
1      b       2
0      c       3
1      d       4
"""
print('-'*40)
df3 = pd.DataFrame([['c', '3', 'cat'], ['d', '4', 'dog']],
                   columns = ['letter', 'number', 'animal'])
print("df3:\n", df3)
print('-'*40)
end4 = pd.concat([df1, df3], sort = False) # false则代表没改变columns顺序
print("end4:\n", end4)
print('-'*40)
# 返回两者重复的列,不相同的列不显示
end5 = pd.concat([df1, df3], join = "inner")
print("end5:\n", end5)
print('-'*40)
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']],
                   columns = ['animal', 'name']) 
end6 = pd.concat([df1, df4], axis = 1) # 垂直拼接
print("end6:\n", end6)
print('-'*40)
df5 = pd.DataFrame([1], index = ['a'])
print("df5:\n", df5)
print('-'*40)
df6 = pd.DataFrame([2], index = ['a'])
print("df6:\n", df6)
print('-'*40)
pd.concat([df5, df6], verify_integrity = True)

结果为:

0    andy
1     guo
dtype: object
----------------------------------------
Series name  Row ID
s1           0         andy
             1          guo
s2           0           li
             1          fei
dtype: object
----------------------------------------
  letter  number
0      a       1
1      b       2
----------------------------------------
  letter  number
0      c       3
1      d       4
----------------------------------------
  letter  number
0      a       1
1      b       2
0      c       3
1      d       4
----------------------------------------
df3:
   letter number animal
0      c      3    cat
1      d      4    dog
----------------------------------------
end4:
   letter number animal
0      a      1    NaN
1      b      2    NaN
0      c      3    cat
1      d      4    dog
----------------------------------------
end5:
   letter number
0      a      1
1      b      2
0      c      3
1      d      4
----------------------------------------
end6:
   letter  number  animal    name
0      a       1    bird   polly
1      b       2  monkey  george
----------------------------------------
df5:
    0
a  1
----------------------------------------
df6:
    0
a  2
----------------------------------------
相关文章
|
8月前
|
数据处理 索引 Python
Pandas中concat的用法
Pandas中concat的用法
251 1
|
8月前
|
存储 数据采集 数据处理
深入探索Pandas的DataFrame:基本用法与案例研究
深入探索Pandas的DataFrame:基本用法与案例研究
213 0
|
15天前
|
SQL 数据采集 数据挖掘
Pandas数据合并:concat与merge
Pandas是Python中强大的数据分析库,提供灵活高效的数据结构和工具。本文详细介绍了Pandas中的两种主要合并方法——`concat`和`merge`。`concat`用于沿特定轴连接多个Pandas对象,适用于简单拼接场景;`merge`则类似于SQL的JOIN操作,根据键合并DataFrame,支持多种复杂关联。文章还探讨了常见问题及解决方案,如索引对齐、列名冲突和数据类型不一致等,帮助读者全面掌握这两种方法,提高数据分析效率。
39 8
|
4月前
|
数据采集 运维 数据挖掘
Pandas中的Rank用法:数据排序的高效工具
Pandas中的Rank用法:数据排序的高效工具
167 0
|
4月前
|
索引 Python
Pandas中的时间序列利器:set_index用法
Pandas中的时间序列利器:set_index用法
122 0
|
6月前
|
数据采集 数据挖掘 数据格式
Pandas的用法
【7月更文挑战第9天】Pandas的用法
47 3
|
5月前
|
索引 Python
【Pandas】Pandas Dataframe 常用用法
Pandas DataFrame的常用操作示例,包括筛选数据、索引操作、合并DataFrame、设置和排序索引、文本处理、列重命名、处理缺失值、排序以及删除满足特定条件的行等技巧。
86 0
|
8月前
|
索引 Python
pandas读取某列、某行数据——loc、iloc用法总结
pandas读取某列、某行数据——loc、iloc用法总结
942 2
|
数据可视化 数据挖掘 数据处理
【100天精通Python】Day58:Python 数据分析_Pandas时间序列数据处理,创建和解析时间数据pd.to_datetime(),.loc[],resample() 用法示例
【100天精通Python】Day58:Python 数据分析_Pandas时间序列数据处理,创建和解析时间数据pd.to_datetime(),.loc[],resample() 用法示例
563 0
|
索引 Python
pandas用法小结(三)
pandas用法小结(三)
94 0