大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

简介: 本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

实验涉及大数据产品

实验环境准备

必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:

开通大数据计算服务MaxCompute

若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建Data IDE项目空间。

  • step1:进入阿里云官网并点击右上角登录阿里云账号。
    登录
  • step2:点击进入大数据计算服务产品详情页,点击立即开通
    立即开通
  • step3:选择按量付费并点击立即购买
    购买

创建Data IDE项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击创建项目,跳出创建项目对话框。
    创建项目
  • step3:勾选付费方式为I/O后付费,填写项目名称及相关信息,点击确定,直至返回创建成功状态。
    配置项目

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

进入大数据开发套件

确保阿里云账号处于登录状态。

项目列表

  • step2:点击已经创建的项目空间名称,进入大数据开发套件。

点击进入项目

进入大数据开发套件

新建数据源

根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。

1.新建FTP数据源
  • step1:点击项目管理>数据源管理,继而点击新增数据源

新增数据源

  • step2:选择数据源类型ftp,同时Protocol选择为sftp,其他配置项如下。

配置ftp数据源

FTP数据源配置信息如下:

  • 数据源名称:ftp_workshop_log
  • 数据源描述:ftp日志文件同步
  • 数据源类型:ftp
  • 网络类型:经典网络
  • Protocol:sftp
  • Host:10.161.147.251
  • Port:22
  • 用户名/密码:workshop/workshop
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。

保存ftp数据源

2.新建RDS数据源
  • step1:点击项目管理>数据源管理,继而点击新增数据源

新增数据源

  • step2:选择数据源类型为RDS>mysql并完成相关配置项。

配置RDS数据源

RDS数据源配置信息如下:

  • 数据源名称:rds_workshop_log
  • 数据源描述:rds日志数据同步
  • 数据源类型:RDS > Mysql
  • RDS实例名称:rds955b606xk7e564006
  • RDS实例购买者ID:1805651026304759
  • 数据库名:workshop
  • 用户名/密码:demo_001/demo_001
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。

保存RDS数据源

创建目标表

  • step1:点击数据开发,进入数据开发首页中点击新建脚本

新建脚本

  • step2:配置文件名称为create_table_ddl,类型选择为ODPS SQL,点击提交

配置脚本

  • step3:编写DDL创建表语句,如下分别创建FTP日志对应目标表和RDS对应目标表.

编写DDL

DDL语句如下:

--创建ftp日志对应目标表
DROP TABLE IF EXISTS ods_raw_log_d;

CREATE TABLE ods_raw_log_d (
    col STRING
)
PARTITIONED BY (
    dt STRING
);

--创建RDS对应目标表
DROP TABLE IF EXISTS ods_user_info_d;

CREATE TABLE ods_user_info_d (
    uid STRING COMMENT '用户ID',
    gender STRING COMMENT '性别',
    age_range STRING COMMENT '年龄段',
    zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
    dt STRING
);
  • step3:点击运行,直至日志信息返回成功表示两张目标表创建成功。

运行DDL

  • step4:可以使用desc语法来确认创建表是否成功。

DESC

  • step5:点击保存,保存编写的SQL建表语句。

保存DDL

新建工作流任务

  • step1:点击新建并选择新建任务

新建任务

  • step2:选择工作流任务,调度类型选择为周期调度,其他配置项如下。

配置任务

  • step3:点击创建。
  • step4:进入工作流配置面板,并向面板中拖入一个虚节点(命名为workshop_start)和两个数据同步节点(分别命名为ftp_数据同步和rds_数据同步):

新建虚拟节点

新建FTP同步

新建RDS同步

  • step5:拖拽连线将workshop_start虚节点设置为两个数据同步节点的上游节点,如下所示:

同步连线

  • step6:点击保存(或直接快捷键ctrl+s)。

配置数据同步任务

1)配置ftp_数据同步节点
  • step1:双击ftp_数据同步节点,进入节点配置界面。选择来源:并选择数据来源事先配置好的ftp数据源,为ftp_workshop_log,文件路径为/home/workshop/user_log.txt。可以对非压缩文件进行数据预览。

配置同步

同步预览

数据来源配置项具体说明如下:

  • 数据来源:ftp_workshop_ftp
  • 文件路径:/home/workshop/user_log.txt
  • 列分隔符:|
  • step2:选择目标。点击下一步

数据流向选择数据源为odps_first,表名为ods_raw_log_d。分区信息和清理规则都采取系统默认,即清理规则为写入前清理已有数据,分区按照${bdp.system.bizdate}。

  • step3:配置字段映射。连接要同步的字段。如下:

字段映射

  • step4:在下一步操作中配置通道控制,作业速率上限为10MB/s,进入下一步。

通道控制

可在预览保存页面中,预览上述的配置情况,也可以进行修改,确认无误后,点击保存

  • step5:点击返回工作流面板。

返回工作流

2)配置rds_数据同步节点
  • step1:双击rds_数据同步节点进入配置界面。选择来源:选择数据来源为rds_workshop_log,表名为ods_user_info_d;切分键为使用默认生成列即可。点击数据预览,可以看到表中数据样例。

RDS选择来源

  • step2:进入下一步,选择目标数据源和表名。

RDS选择目标

  • step3:进入下一步,配置字段映射。默认会同名映射,字段映射关系采用默认即可,如下所示:

RDS字段映射

  • step4:进入下一步,配置作业速率上限。

RDS通道控制

  • step5:在预览保存页面中确认配置信息,无误后点击保存配置。

RDS预览保存

提交工作流任务

  • step1:点击提交,提交已经配置的工作流任务。

提交工作流任务

  • step2:在变更节点列表弹出框中点击确定提交

确定提交任务

提交成功后工作流任务处于只读状态,如下:

只读状态

测试运行工作流任务

  • step1:点击测试运行

测试运行

  • step2:在周期任务运行提醒弹出框点击确定

周期任务运行提醒

  • step3:在测试运行弹出框中,实例名称和业务日期都保持默认,点击运行

测试运行按钮

  • step4:在工作流任务测试运行弹出框中,点击前往运维中心

在运维中心可以查看任务视图,如下图表示该工作流任务(名称为workshop_start)正在运行。

运维中心测试

直至所有节点都运行返回成功状态即可(需要点击运维视窗中的刷新按钮查看实时状态)。如下所示:

数据同步测试成功

  • step5:右键查看节点运行日志,可以看到成功同步数据条数。

查看同步日志

日志界面

确认数据是否成功导入MaxCompute

  • step1:返回到create_table_ddl脚本文件中。
  • step2:编写并执行sql语句查看导入ods_raw_log_d记录数。

数据预览

  • step3:同样编写并执行sql语句查看导入ods_user_info_d记录数。

附录:SQL语句如下,其中分区键需要更新为业务日期,如测试运行任务的日期为20170328,那么业务日期为20170327.

---查看是否成功写入MaxCompute
select count(*) from ods_raw_log_d where dt=业务日期;
select count(*) from ods_user_info_d where dt=业务日期;

>>>点击进入>>>《数据加工:用户画像》篇

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
9月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
2814 108
|
11月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
1073 1
|
11月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
1201 0
|
8月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
451 1
|
运维 监控 Cloud Native
一行代码都不改,Golang 应用链路指标日志全知道
本文将通过阿里云开源的 Golang Agent,帮助用户实现“一行代码都不改”就能获取到应用产生的各种观测数据,同时提升运维团队和研发团队的幸福感。
832 148
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
632 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
12月前
|
监控 安全 Linux
AWK在网络安全中的高效应用:从日志分析到威胁狩猎
本文深入探讨AWK在网络安全中的高效应用,涵盖日志分析、威胁狩猎及应急响应等场景。通过实战技巧,助力安全工程师将日志分析效率提升3倍以上,构建轻量级监控方案。文章详解AWK核心语法与网络安全专用技巧,如时间范围分析、多条件过滤和数据脱敏,并提供性能优化与工具集成方案。掌握AWK,让安全工作事半功倍!
442 0
|
数据采集 数据挖掘 大数据
你还在光采不洗?聊聊数据采集和数据分析到底啥关系!
你还在光采不洗?聊聊数据采集和数据分析到底啥关系!
368 8
|
运维 应用服务中间件 nginx
docker运维查看指定应用log文件位置和名称
通过本文的方法,您可以更高效地管理和查看Docker容器中的日志文件,确保应用运行状态可控和可监测。
2609 28
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
358 3

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute