2017-11-23 2627
必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:
若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建DataWorks项目空间。
确保阿里云账号处于登录状态。
选择相应的服务器时如果没有购买是选择不了会提示您去开通购买。数据开发、运维中心、数据管理默认是被选择中。
项目名需要字母或下划线开头,只能包含字母下划线和数字。【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。
根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。
FTP数据源配置信息如下:
RDS数据源配置信息如下:
DDL语句如下:
--创建ftp日志对应目标表 DROP TABLE IF EXISTS ods_raw_log_d; CREATE TABLE ods_raw_log_d ( col STRING ) PARTITIONED BY ( dt STRING ); --创建RDS对应目标表 DROP TABLE IF EXISTS ods_user_info_d; CREATE TABLE ods_user_info_d ( uid STRING COMMENT '用户ID', gender STRING COMMENT '性别', age_range STRING COMMENT '年龄段', zodiac STRING COMMENT '星座' ) PARTITIONED BY ( dt STRING );
数据来源配置项具体说明如下:
数据流向选择数据源为odps_first,表名为ods_raw_log_d。分区信息和清理规则都采取系统默认,即清理规则为写入前清理已有数据,分区按照${bdp.system.bizdate}。
可在预览保存页面中,预览上述的配置情况,也可以进行修改,确认无误后,点击保存。
提交成功后工作流任务处于只读状态,如下:
在运维中心可以查看任务视图,如下图表示该工作流任务(名称为workshop_start)正在运行。直至所有节点都运行返回成功状态即可(需要点击运维视窗中的刷新按钮查看实时状态)。如下所示:
附录:SQL语句如下,其中分区键需要更新为业务日期,如测试运行任务的日期为20171011,那么业务日期为20171010。
--查看是否成功写入MaxCompute select count(*) from ods_raw_log_d where dt=业务日期; select count(*) from ods_user_info_d where dt=业务日期;
>>>点击进入>>>《数据加工:用户画像》篇
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。