电商项目之 DWD 用户启动日志表 Shell 脚本编写

电商项目之 DWD 用户启动日志表 Shell 脚本编写｜学习笔记

2022-11-16 148 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： 快速学习电商项目之 DWD 用户启动日志表 Shell 脚本编写

开发者学堂课程【新电商大数据平台2020最新课程：电商项目之 DWD 用户启动日志表 Shell 脚本编写】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/640/detail/10525

电商项目之 DWD 用户启动日志表 Shell 脚本编写

一、动态穿插

二、动态传输分区

三、脚本编写

一、动态穿插

上一个任务出现错误,因为运行任务资源不足，任务失败了。

这时需要重新增大 map 的，由于在拉取数据的时候失败了，所以在这里需要开启本地模式：

FAILED: Execution Erro，return code 2 from org.apache . hadoop.hive.ql.exec.mr .MapRedTask

MapReduce Jobs Launched:

Stage-Stage-1: Map: iHDFS Read: 0 HDFS write: 0 FAIL

Total MapReduce CPU Time Spent: 0 msec

hives > set hive.exec.mode.local.auto=true;

本地模式很快，传入一个动态分析，运行成功。

现在动态穿插完成。

二、动态传输分区

需要把任务写成动态传输的方式，动态传输有两个方法，都是传参数的方法。

1.hivevar :传参数，专门提供给用户自定义变量。

2.hiveconf :传参数，另外可以包括了 hive-site.xml 中配置的 hive 全局变量。

如--hiveconf "mapred.job.queue.name=root.default"

{hiveconf:bdp_day}、{hiveconf :action}等是 hql 语句中使用的条件部分对应的动态值，为 azkaban 任务脚本中对应的时间分区列值(离线任务选择昨天数据进行处理)

三、脚本编写

创建 shell,把它打开，首先改成 unix.

//写下对应的配置

!/bin/hash

//获取对应的信息：前一天的时间，年、月、日

yesterday= 'date -d "-1 day"+"&y&m&d"”

action=02

//执行

/usr/local/hive-2.1.1/bin/hive

-hiveconf action-$action//引用

-hiveconf bdp day=$yesterday //引用

-f dwd.hql//执行我的文件

写完后保存。

再创建一个 dwd.hql 文件，

写入以下代码：

set hive. exec. dynamic partition=true;

set hive. exec. dynamic partition mode=nonstrict:

insert overwrite table dwd nshop. dwd nshop actlog launch partition (bdp dayl

select

ustomer id,

device num,

device type,

os ,

os version

manufacturer,

carrier,

network type,

area code,

from unixtime(cast (ct/1000 as int),'HH'),

ct

bdp day

from ods nshop. ods nshop 01 useractlog

where

bdp_day='20200321

and

action=02

将部分内容修改为：

bdp_day='sthiveconf :bdp_day

and

action='$(hiveconf:action)';

再将 yesterday= 'date -d "-1 day"+"&y&m&d"”

修改为 yesterday= ' 20200321"数据的形式

以上就是动态传输的编写