开发者学堂课程【新电商大数据平台2020最新课程:电商项目之 DWD 用户启动日志表 Shell 脚本编写】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10525
电商项目之 DWD 用户启动日志表 Shell 脚本编写
目录:
一、动态穿插
二、动态传输分区
三、脚本编写
一、动态穿插
上一个任务出现错误,因为运行任务资源不足,任务失败了。
这时需要重新增大 map 的,由于在拉取数据的时候失败了,所以在这里需要开启本地模式:
FAILED: Execution Erro,return code 2 from org.apache . hadoop.hive.ql.exec.mr .MapRedTask
MapReduce Jobs Launched:
Stage-Stage-1: Map: iHDFS Read: 0 HDFS write: 0 FAIL
Total MapReduce CPU Time Spent: 0 msec
hives > set hive.exec.mode.local.auto=true;
本地模式很快,传入一个动态分析,运行成功。
现在动态穿插完成。
二、动态传输分区
需要把任务写成动态传输的方式,动态传输有两个方法,都是传参数的方法。
1.hivevar :传参数,专门提供给用户自定义变量。
2.hiveconf :传参数,另外可以包括了 hive-site.xml 中配置的 hive 全局变量。
如--hiveconf "mapred.job.queue.name=root.default"
{hiveconf:bdp_day}、{hiveconf :action}等是 hql 语句中使用的条件部分对应的动态值,为 azkaban 任务脚本中对应的时间分区列值(离线任务选择昨天数据进行处理)
三、脚本编写
创建 shell,把它打开,首先改成 unix.
//写下对应的配置
!/bin/hash
//获取对应的信息:前一天的时间,年、月、日
yesterday= 'date -d "-1 day"+"&y&m&d"”
action=02
//执行
/usr/local/hive-2.1.1/bin/hive
-hiveconf action-$action
//引用
-hiveconf bdp day=$yesterday
//引用
-f dwd.hql/
/执行我的文件
写完后保存。
再创建一个 dwd.hql 文件,
写入以下代码:
set hive. exec. dynamic partition=true;
set hive. exec. dynamic partition mode=nonstrict:
insert overwrite table dwd nshop. dwd nshop actlog launch partition (bdp dayl
select
ustomer id,
device num,
device type,
os ,
os version
manufacturer,
carrier,
network type,
area code,
from unixtime(cast (ct/1000 as int),'HH'),
ct
bdp day
from ods nshop. ods nshop 01 useractlog
where
bdp_day='20200321
and
action=02
将部分内容修改为:
bdp_day='sthiveconf :bdp_day
and
action='$(hiveconf:action)';
再将 yesterday= 'date -d "-1 day"+"&y&m&d"”
修改为 yesterday= ' 20200321"数据的形式
以上就是动态传输的编写