pig笔记

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657011 1.
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657011
1.安装Pig
将pig添加到环境变量当中

2.pig使用
首先将数据库中的数据导入到HDFS上
sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --


password JChubby123  --table trade_detail --target-dir '/sqoop/td'
sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --


password JChubby123  --table user_info --target-dir '/sqoop/ui'
 

td = load '/sqoop/td' using PigStorage(',') as (id:long, account:chararray, 


income:double, expenses:double, time:chararray);
ui = load '/sqoop/ui' using PigStorage(',') as (id:long, account:chararray, 


name:chararray, age:int);

td1 = foreach td generate account, income, expenses, income-expenses as surplus;

td2 = group td1 by account;

td3 = foreach td2 generate group as account, SUM(td1.income) as income, SUM


(td1.expenses) as expenses, SUM(td1.surplus) as surplus;

tu = join td3 by account, ui by account;

result = foreach tu generate td3::account as account, ui::name, td3::income, 


td3::expenses, td3::surplus;

store result into '/result' using PigStorage(',');
相关文章
|
SQL 分布式计算 算法
|
SQL 分布式计算 关系型数据库
Sqoop笔记
Sqoop笔记
188 0
Sqoop笔记
|
分布式计算 Spark 开发者
Zeppelin_使用笔记| 学习笔记
快速学习 Zeppelin_使用笔记
Zeppelin_使用笔记| 学习笔记
|
分布式计算 Java Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
158 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
|
存储 分布式计算 Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
140 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
|
SQL 存储 分布式计算
Hive快速学习指南
Hive数据据仓库了解了解
381 0
Hive快速学习指南
|
SQL 存储 分布式计算
Hadoop-Hive基础知识整理
Hadoop-Hive基础知识整理
Hadoop-Hive基础知识整理
|
存储 消息中间件 分布式计算
Storm 简介
场景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去游泳,但是却发现系统在不遗余力地给他推荐袜子、鞋子,根本对他今天寻找泳镜的行为视而不见,估计这哥们心里就会想推荐你妹呀。其实稍微了解点背景知识的码农们都知道,这是因为后台系统做的是每天一次的全量处理
156 0
|
分布式计算 算法 Java
pig
应用场景 Pig并不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的,如果想执行的查询只涉及一个大型数据集的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。
1521 0
|
SQL 关系型数据库 数据挖掘