Pandas之六Merge-阿里云开发者社区

开发者社区> 数据库> 正文
登录阅读全文

Pandas之六Merge

简介: 有时可能需要将不同的dataframe合并到后进行分析,讲解两种merge方法:concat和join

有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:

  • concat:直接拼接,将datafarme或series按行或列拼接在一起
  • join:类似于sql中的join,按照条件组合到一起

1. Concat

concat可以同时合并两个及两个以下的dataframe,可以按行进行合并,也可以按列进行合并。下面我们以下图中的数据来演示上述各项功能。

1.1 按行合并dataframe

将df4、df5和df6按行合并成一个dataframe,合并步骤:

  1. 取出所有dataframe的不同列名,作为结果dataframe的列名
  2. 直接拼接所有dataframe的所有行,按照原列名存放各列数据
  3. np.nan补充缺失值
pd.concat([df4,df5,df6])

1.2 按列合并dataframe

设置参数axis=1将df4和df5按列合并成一个dataframe,与按行合并的区别是会在原dataframe后追加所有行和所有列

pd.concat([df4,df5.loc[:,"B"]],axis=1)

2. Join

Join方式类似于SQL中的join,是日常操作中用得较多的方式,使用pd.merge方法实现,本文先介绍基础用法,后续精讲系列再进行深入讲解。首先构建两个需要合并的dataframe

  1. 使用pd.merge为两个dataframe关联key相同的数据,取其所有列。一般情况下,on设置为在所有dataframe数据都不重复的列名,以避免重复数据出现。

    pd.merge(left, right, on="key")

  1. 使用pd.merge左连接的方式关联合并,设置参数how="left",以left为主,取right中相同key的数据,不存在的数据默认以np.nan填充。

    pd.merge(left, right, on="key", how="left")

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
数据库
使用钉钉扫一扫加入圈子
+ 订阅

分享数据库前沿,解构实战干货,推动数据库技术变革

其他文章
最新文章
相关文章