flare-spork: 自己维护的Pig on Spark项目

简介:

关于flare-spork

很早以前有个 Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。

flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。

目前项目在Github上, 地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。

Github上的内容已经是merge进Pig 0.12.0的Spork版本了,可以编译和运行。更多细节的内容可以参考里面的 README。有介绍如何编译,有什么改变,能跑什么样的简单demo。


目录
相关文章
|
6月前
|
分布式计算 数据可视化 大数据
基于spark的医疗大数据可视化大屏项目
基于spark的医疗大数据可视化大屏项目
144 0
|
7月前
|
SQL 分布式计算 Java
IDEA 打包 Spark 项目 POM 文件依赖
这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
112 0
|
7月前
|
消息中间件 关系型数据库 MySQL
Spark实时(数据采集)项目
Spark实时(数据采集)项目
160 2
|
7月前
|
数据采集 分布式计算 Linux
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
182 0
|
7月前
|
机器学习/深度学习 分布式计算 大数据
【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)
【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)
112 0
|
分布式计算 Java Scala
配置spark,并在idea中搭建项目
配置spark,并在idea中搭建项目
144 0
|
机器学习/深度学习 人工智能 分布式计算
SparK项目原作解读:卷积模型的首个BERT预训练
SparK项目原作解读:卷积模型的首个BERT预训练
316 0
|
设计模式 分布式计算 Scala
Spark Master 和 Worker 项目需求 | 学习笔记
快速学习 Spark Master 和 Worker 项目需求
Spark Master 和 Worker 项目需求 | 学习笔记
|
机器学习/深度学习 分布式计算 算法
Spark项目实战:飞机延误预测项目
Spark项目实战:飞机延误预测项目
556 0
Spark项目实战:飞机延误预测项目
|
分布式计算 Java Hadoop
Spark集群搭建记录 | 云计算[CentOS8] | Scala Maven项目访问Spark(local模式)实现单词计数(下)
step6 创建scala object step7 修改pom文件 step8 配置项目 step9 添加依赖库(Spark的jar包) step10 设置输入路径
167 0
Spark集群搭建记录 | 云计算[CentOS8] | Scala Maven项目访问Spark(local模式)实现单词计数(下)

相关实验场景

更多