Flare-Spark 介绍
我在自己的github上建了个
flare-spark项目,本身是Apache Spark项目Master分支的镜像。在Spark的基础上,增加了flare子项目。
预计大多数改动都会增量添加到flare子项目里,尽量不改变Spark本身的代码。
新增的代码都会在线下机器上编译、运行成功之后再提交上来。
对于flare-spark项目的维护和新增逻辑如下图:
新的代码在线下编译测试通过之后,提向develop分支,再以PR的形式merge到master主干。
同时不定时从Apache Spark 的Master分支merge新的PR,pull的目标是临时分支,待合进master后再删除branch。
New Feature
目前的flare项目里增加了ORCFile的读取,代码方面加入了OrcfileRDD和一个FlareContext。ORCFile可以提供列裁剪和适当的过滤谓词下推。
目前对于flare-spark项目的畅想,主要在Pig on Spark这个思路上。
有什么问题和建议可以直接与我联系,欢迎交流、沟通 :)
全文完 :)