阅读mutate源码学习dplyr

简介: dplyr是R语言里面处理数据数据非常好使的包,但是最近使用它解决一些问题时遇到了瓶颈,并且搜到的教程都特别基础,所以我打算从源码的角度去找解决方案。为了理解dplyr::mutate这个函数,我们需要借助一个实例,分别思考mutate(mtcars), mutate(mtcars, gear+carb)和mutate(mtcars, new=gear+carb)会在运行的时候的处理流。

dplyr是R语言里面处理数据数据非常好使的包,但是最近使用它解决一些问题时遇到了瓶颈,并且搜到的教程都特别基础,所以我打算从源码的角度去找解决方案。

为了理解dplyr::mutate这个函数,我们需要借助一个实例,分别思考mutate(mtcars), mutate(mtcars, gear+carb)mutate(mtcars, new=gear+carb)会在运行的时候的处理流。

在R语言中直接输入函数的名字,就能看到"mutate"的源码

> dplyr::mutate
function (.data, ...) 
{
    UseMethod("mutate")
}
<environment: namespace:dplyr>

这告诉我们,"mutate"其实是一个泛型函数( generic function),因为它使用UseMethod()调用和数据结构对应的"mutate". 我们可以用”methods“去找给定泛型函数的所有实现方法

PS: 如果你输入的不是数据框或者tbl_df,那么泛型函数就会报错, 因为找不到对应的

> methods(mutate)
[1] mutate.data.frame* mutate.default*    mutate.tbl_df* 

由于"mtcars"是数据框,那么UseMethod就会选择mutate.data.frame作为实际使用的函数。但是你不能通过直接在命令里输这些mutate.data.frame来查看它的源代码,这是因为*标注的是不可见函数(nonvisible function),就是不在默认命名空间中的而函数,,你需要用getAnywhere()找到这些函数,然后使用命名空间限定符来访问。

> getAnywhere(mutate.data.frame)
A single object matching ‘mutate.data.frame’ was found
It was found in the following places
  registered S3 method for mutate from namespace dplyr
  namespace:dplyr
with value

function (.data, ...) 
{
    as.data.frame(mutate(tbl_df(.data), ...))
}

这说明对于data.frame类的数据,会先用tbl_df更改数据结构,重新调用mutate函数。那么对于tbl_df类,泛型函数就会调用mutate.tbl_df*

> getAnywhere(mutate.tbl_df)
A single object matching ‘mutate.tbl_df’ was found
It was found in the following places
  registered S3 method for mutate from namespace dplyr
  namespace:dplyr
with value

function (.data, ...) 
{
    dots <- named_quos(...)
    mutate_impl(.data, dots)
}

第一个函数named_quos有两个作用,第一返回quosure类,第二保证quosure类都是由名字的,所以mutate(mtcars, gear+carb)的新增列的名字就是gear+carb.

第二个函数调用了mutate_impl,以.data和dots作为输入,这个函数也是不可见的,所以也要用getAnywhere

> getAnywhere(mutate_impl)
A single object matching ‘mutate_impl’ was found
It was found in the following places
  namespace:dplyr
with value

function (df, dots) 
{
    .Call(`_dplyr_mutate_impl`, df, dots)
}

.Call函数是C/C++代码的交互界面,负责调用_dplyr_mutate_impl模块,传入的就是数据框和dots对象。

R语言部分的代码到此就结束了,因为后续就是调用C/C++代码编译后的函数。
这部分的代码在GitHub上托管,https://github.com/tidyverse/dplyr/blob/master/src/mutate.cpp。虽然我几乎没用C/C++写代码,但还能勉强看代码

接着之前_dplyr_mutate_impl,对应代码如下

// [[Rcpp::export]]
SEXP mutate_impl(DataFrame df, QuosureList dots) {
  if (dots.size() == 0) return df;
  check_valid_colnames(df);
  if (is<RowwiseDataFrame>(df)) {
    return mutate_grouped<RowwiseDataFrame, LazyRowwiseSubsets>(df, dots);
  } else if (is<GroupedDataFrame>(df)) {
    return mutate_grouped<GroupedDataFrame, LazyGroupedSubsets>(df, dots);
  } else {
    return mutate_not_grouped(df, dots);
  }
}

SEXP类由Rcpp包提供,让R包能够方便的使用.Call和C/C++代码交互,这样子就不需要写专门的代码将R语言的数据结构转换成C++数据结构。

然后判断quosure列表的长度,数据框是否存在无效的列名,是否需要分组计算。当长度为0时返回原来的数据框。后面就是具体运算的代码,读起来真的是费劲,但是对于我而言,只需要了解 QuosureList dots 最后是如何被使用的就行。

dots只是存放表达的中间态,随后会经由循环传给NamedQuosure类,后续这些指令传给call_proxy,而这个类来自于"#include <dplyr/Result/CallProxy.h>"。不能再继续了,因为此恨绵绵无绝期,继续就是Rcpp这个无底洞,放弃吧。

总结一句:理解dplyr包的关键在于,你得知道dplyr包本身不参与的数据处理,它只是生成SQL语言转述给后端的数据库,让数据库完成数据处理部分。换句话说,它对SQL语句的简洁封装,实现前后端分离。

通过读源代码的方式,我理解到掌握mutate的核心其实学会dplyr编程,学会将你需要执行的表达式传递给dots,你就能自由的使用mutate甚至是其他所有dplyr系列。

mutate拓展函数: mutate_if,mutate_all,mutate_at就是学习mutate的最好案例

这三个函数虽然看起来不同,但是殊途同归,最后都是mutate(.tbl, !(!(!funs))),funs虽然由看似不同的manip_ifmanip_at, manip_all构建,但是本质上都是manip_apply_sym的变体而已。接下来用mutate_all(mtcars, funs(mean)的执行过程来辅助理解。

首先.tbl=mtcars.funs=funs(mean)设置函数内局部变量,

然后调用manip_all,源代码如下

manip_all <- function (.tbl, .funs, .quo, .env, ...) 
{
  syms <- syms(tbl_nongroup_vars(.tbl))
# 这一步得到目标处理列列名的符号列表
  funs <- as_fun_list(.funs, .quo, .env, ...)
# 这里的.funs会是funs(./2.54)运算后的fun_list, 而.quo则是funs(./2.54本身,是一个quosure类
#.env则表示当前所处环境,最后将所有提供的函数合并成一个fun_list。
  manip_apply_syms(funs, syms, .tbl)
}

syms以列表形式存储待处理的列名的符号(不是字符串),funs以fun_calls数据结构存放要执行的函数。最后这些参数连同数据框本身传给manip_apply_syms,返回一个列表,这个列表记录着需要执行的运算。

syms <- syms(tbl_nongroup_vars(mtcars))
funlist <- dplyr:::as_fun_list(funs(mean), quo(mean), caller_env())
dplyr:::manip_apply_syms(funlist,syms, mtcars)
# 运行结果
$mpg
<quosure>
  expr: ^mean(mpg)
  env:  global
$cyl
<quosure>
  expr: ^mean(cyl)
  env:  global
...
$carb
<quosure>
  expr: ^mean(carb)
  env:  global

最后就会出现一个非常神奇的表达形式!(!(!funs)), 我目前还不知道有什么用。可能是rlange !!!,用于将列表的内容解压,所以下面两个表达是等价的

# 表达一
mutate_all(mtcars,funs(mean)
# 表达二
syms <- syms(tbl_nongroup_vars(mtcars))
funlist <- dplyr:::as_fun_list(funs(mean), quo(mean), caller_env())
rs <- dplyr:::manip_apply_syms(funlist,syms, mtcars)
mutate(mtcars,!!!rs)
目录
相关文章
|
测试技术 Go
怎么写Go基准测试 | 青训营笔记
怎么写Go基准测试 | 青训营笔记
93 0
精心整理的最全python入门思维导图(第二部分)
精心整理的最全python入门思维导图(第二部分)
精心整理的最全python入门思维导图(第二部分)
|
网络协议 Python
精心整理的最全python入门思维导图(第四部分),完结
精心整理的最全python入门思维导图(第四部分),完结
精心整理的最全python入门思维导图(第四部分),完结
精心整理的最全python入门思维导图(第三部分)
精心整理的最全python入门思维导图(第三部分)
精心整理的最全python入门思维导图(第三部分)
|
存储 Python
精心整理的最全python入门思维导图(第一部分)
精心整理的最全python入门思维导图(第一部分)
精心整理的最全python入门思维导图(第一部分)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(一)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(一)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(一)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(二)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(二)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(二)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(三)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(三)
numpy的使用说明(二):这一章设计很多重要知识点(必看)(三)
|
XML 机器学习/深度学习 分布式计算
Python库全部整理出来了,非常全面(一)
Python库全部整理出来了,非常全面(一)
195 0
|
机器学习/深度学习 NoSQL 算法
Python库全部整理出来了,非常全面(二)
Python库全部整理出来了,非常全面(二)
227 0