阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇-阿里云开发者社区

开发者社区> 祁然> 正文

阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

简介: 大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
+关注继续查看

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

本手册为阿里云MVP Meetup Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

实验涉及大数据产品

实验环境准备

必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:

开通大数据计算服务MaxCompute

若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建Data IDE项目空间。

  • step1:进入阿里云官网并点击右上角登录阿里云账号。
    登录
  • step2:点击进入数加 · MaxCompute产品详情页,点击立即开通

image

立即开通

  • step3:选择 按量付费,且选择 华东2(上海) Region 点击 立即购买** 。
    购买

创建Data IDE项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击创建项目,跳出创建项目对话框。
    创建项目
  • step3:勾选付费方式为I/O后付费,填写项目名称及相关信息,点击确定,直至返回创建成功状态。
    配置项目

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

进入大数据开发套件

确保阿里云账号处于登录状态。

项目列表

  • step2:点击已经创建的项目空间名称,进入大数据开发套件。

点击进入项目

进入大数据开发套件

新建数据源

根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。

1.新建FTP数据源
  • step1:点击数据集成>数据源管理,继而点击新增数据源

新增数据源

  • step2:选择数据源类型ftp,同时Protocol选择为sftp,其他配置项如下。

image

FTP数据源配置信息如下:

  • 数据源类型类型:有公网ip
  • 数据源名称:ftp_workshop_log
  • 数据源描述:ftp日志文件同步
  • Protocol:sftp
  • Host:10.80.177.33
  • Port:22
  • 用户名/密码:workshop/workshop
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。

保存ftp数据源

2.新建RDS数据源
  • step1:点击数据集成>数据源管理,继而点击新增数据源

新增数据源

  • step2:选择数据源类型为RDS>mysql并完成相关配置项。

image

RDS数据源配置信息如下:

  • 数据源类型:阿里云数据库(RDS)
  • 数据源名称:rds_workshop_log
  • 数据源描述:rds日志数据同步
  • RDS实例名称:rm-bp1z69dodhh85z9qa
  • RDS实例购买者ID:1156529087455811
  • 数据库名:workshop
  • 用户名/密码:workshop/workshop#2017
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。

保存RDS数据源

创建目标表

  • step1:点击数据开发,进入数据开发首页中点击新建脚本

新建脚本

  • step2:配置文件名称为create_table_ddl,类型选择为ODPS SQL,点击提交

配置脚本

  • step3:编写DDL创建表语句,如下分别创建FTP日志对应目标表和RDS对应目标表.

编写DDL

DDL语句如下:

--创建ftp日志对应目标表
DROP TABLE IF EXISTS ods_raw_log_d;

CREATE TABLE ods_raw_log_d (
    col STRING
)
PARTITIONED BY (
    dt STRING
);

--创建RDS对应目标表
DROP TABLE IF EXISTS ods_user_info_d;

CREATE TABLE ods_user_info_d (
    uid STRING COMMENT '用户ID',
    gender STRING COMMENT '性别',
    age_range STRING COMMENT '年龄段',
    zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
    dt STRING
);
  • step3:点击运行,直至日志信息返回成功表示两张目标表创建成功。

运行DDL

  • step4:可以使用desc语法来确认创建表是否成功。

DESC

  • step5:点击保存,保存编写的SQL建表语句。

保存DDL

新建工作流任务

  • step1:点击新建并选择新建任务
    新建任务
  • step2:选择工作流任务,调度类型选择为周期调度,其他配置项如下。

配置任务

  • step3:点击创建。
  • step4:进入工作流配置面板,并向面板中拖入一个虚节点(命名为workshop_start)和两个数据同步节点(分别命名为ftp_数据同步和rds_数据同步):
    新建虚拟节点

新建FTP同步

新建RDS同步

  • step5:拖拽连线将workshop_start虚节点设置为两个数据同步节点的上游节点,如下所示:

同步连线

  • step6:点击保存(或直接快捷键ctrl+s)。

配置数据同步任务

1)配置ftp_数据同步节点
  • step1:双击ftp_数据同步节点,进入节点配置界面。选择来源:并选择数据来源事先配置好的ftp数据源,为ftp_workshop_log,文件路径为/home/workshop/user_log.txt。可以对非压缩文件进行数据预览。

配置同步

同步预览

数据来源配置项具体说明如下:

  • 数据来源:ftp_workshop_ftp
  • 文件路径:/home/workshop/user_log.txt
  • 列分隔符:|
  • step2:选择目标。点击下一步

数据流向选择数据源为odps_first,表名为ods_raw_log_d。分区信息和清理规则都采取系统默认,即清理规则为写入前清理已有数据,分区按照${bdp.system.bizdate}。

  • step3:配置字段映射。连接要同步的字段。如下:字段映射
  • step4:在下一步操作中配置通道控制,作业速率上限为10MB/s,进入下一步。

通道控制

可在预览保存页面中,预览上述的配置情况,也可以进行修改,确认无误后,点击保存

  • step5:点击返回工作流面板。

返回工作流

2)配置rds_数据同步节点
  • step1:双击rds_数据同步节点进入配置界面。选择来源:选择数据来源为rds_workshop_log,表名为ods_user_info_d;切分键为使用默认生成列即可。点击数据预览,可以看到表中数据样例。

RDS选择来源

  • step2:进入下一步,选择目标数据源和表名。

RDS选择目标

  • step3:进入下一步,配置字段映射。默认会同名映射,字段映射关系采用默认即可,如下所示:

RDS字段映射

  • step4:进入下一步,配置作业速率上限。

RDS通道控制

  • step5:在预览保存页面中确认配置信息,无误后点击保存配置。

RDS预览保存

配置调度、提交工作流任务

  • step1:点击调度配置,配置调度参数

调度配置

  • step2:点击提交,提交已经配置的工作流任务。

提交工作流任务

  • step3:在变更节点列表弹出框中点击确定提交

确定提交任务

提交成功后工作流任务处于只读状态,如下:只读状态

测试运行工作流任务

  • step1:点击测试运行

测试运行

  • step2:在周期任务运行提醒弹出框点击确定

周期任务运行提醒

  • step3:在测试运行弹出框中,实例名称和业务日期都保持默认,点击运行

测试运行按钮

  • step4:在工作流任务测试运行弹出框中,点击前往运维中心

在运维中心可以查看任务视图,如下图表示该工作流任务(名称为workshop_start)正在运行。

运维中心测试

直至所有节点都运行返回成功状态即可(需要点击运维视窗中的刷新按钮查看实时状态)。如下所示:

数据同步测试成功

  • step5:点击节点,查看运行日志。

日志界面
)

确认数据是否成功导入MaxCompute

  • step1:返回到create_table_ddl脚本文件中。
  • step2:编写并执行sql语句查看导入ods_raw_log_d记录数。

数据预览

  • step3:同样编写并执行sql语句查看导入ods_user_info_d记录数。

附录:SQL语句如下,其中分区键需要更新为业务日期,如测试运行任务的日期为20171011,那么业务日期为20171010.

---查看是否成功写入MaxCompute

select count(*) from ods_raw_log_d where dt=业务日期;

select count(*) from ods_user_info_d where dt=业务日期;

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
在游戏运营行业,Serverless 如何解决数据采集分析痛点?
众所周知,游戏行业在当今的互联网行业中算是一棵常青树。在疫情之前的 2019 年,中国游戏市场营收规模约 2884.8 亿元,同比增长 17.1%。2020 年因为疫情,游戏行业更是突飞猛进。玩游戏本就是中国网民最普遍的娱乐方式之一,疫情期间更甚。据不完全统计,截至 2019 年,中国移动游戏用户规模约 6.6 亿人,占中国总网民规模 8.47 亿的 77.92%,可见游戏作为一种低门槛、低成本的娱乐手段,已成为大部分人生活中习以为常的一部分。
4264 0
游戏日志分析2:全方位数据采集
在上一篇文章中,我们介绍了日志数据对游戏的重要性,这一篇我们来讨论下如何高效地实施全方位无死角的日志采集。
4411 0
云栖直播:尝鲜阿里云大数据分析、机器学习与混合云(原云栖速递)
云栖头条 云栖直播:尝鲜阿里云大数据分析、机器学习与混合云 摘要 云栖大会上海峰会,直播50余场技术干货,让你可以快速复制阿里巴巴的互联 网架构。2016年1月
2535 0
立足阿里边缘计算,促进物联网硬件落地(上)——阿里云 MVP刘洪峰
北京叶帆易通科技CEO刘洪峰为大家带来立足阿里边缘计算,促进物联网硬件落地的介绍。阿里更擅长做云端物联网平台构建,边缘计算网关其实核心在系统软件,边缘设备可以源源不断向阿里云物联网平台提供数据,但是边缘计算相对于阿里云这大脑来说,只是一个神经节,粒度还是比较粗,需要更多的神经末梢系统接入到神经节,然后再上传到阿里云平台。 本次主要介绍阿里边缘设备如何和周边设备进行快速互联互通。
490 0
精通日志查询: 如何翻页获取日志和计算结果
精通日志查询: 如何翻页获取日志和计算结果 日志服务提供一站式的日志采集、存储、查询、计算功能。交互式的日志采集体验,释放用户的运维压力,解放用户的双手; 交互式的查询分析体验,让用户自由的构建数据模型、探索式分析挖掘数据深层。
2569 0
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
2999 0
【oracle】关于日志产生量的计算
根据每日归档的生成量,可以反过来估计每日的数据库活动性及周期性,并决定空间分配的问题!1.计算归档日志的生产量:select name,completion_time,BLOCKS * BLOCK_SIZE/1024/1024 MB from v$archived_log where rownum 2.
549 0
利用Python+NBI大数据可视化工具实现采集到分析整体方案
大家可能都比较熟悉python这门技术语言,确实在大数据火起来之后python的热度一度高涨,不可否认的是python在数据采集这块真的很好用,很方便。 那今天给大家介绍一下通过python采集数据,通过NBI大数据可视化工具做数据分析是如何实现的,首先我们看一下整体方案架构:
127 0
【阿里在线技术峰会】罗龙九:云数据库十大经典案例分析
在阿里巴巴在线峰会上的第二天,来自阿里云资深DBA专家罗龙九给大家带来了题为《云数据库十大经典案例分析》的分享。罗龙九以MySQL数据库为例,分析了自RDS成立至今,用户在使用RDS过程中最常见的问题,包括:索引、SQL优化、锁、延迟、参数优化、连接数、CPU、Iops、磁盘、内存等。
10961 0
100位云计算专家齐聚湖畔大学,就是为了这件事! ——阿里云MVP全球闭门会四大看点抢先看
9月18日,阿里云MVP(最有价值专家)全球闭门会将在湖畔大学举行,共有近100位阿里云MVP参加会议。阿里云技术专家也将到场,进行文化分享和技术交流。
3043 0
+关注
祁然
数据集成
3
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载