大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验涉及大数据产品

前提准备

必备条件:

  • 已经从云中沙箱中获取了实验所需的阿里云账号和密码。
  • 点击下载实验数据,体验阿里云DataHub。
  • 如果您已经创建了DataHub Project,即可跳过创建DataHub Topic章节,直接进入创建DataHub Topic章节

创建DataHub Project

阿里云DataHub默认对所有云账号为开通状态,只需要创建项目所需的Project和Topic即可。

阿里云DataHub project名称是全局唯一的,建议大家本次实验按照workshop_abc的规则来命名,abc为您获取的云账号后三位数字。如获取云账号为train00620@aliyun-inc.com,那么project名称命名为workshop_620。

下次再说

  • step2:点击右上角创建Project
    创建project
  • step3:填写Project名称和描述,点击创建,如下图所示,表示DataHub Project已经创建成功。
    配置Project

配置成功

创建DataHub Topic

已经创建了Project的用户可以直接按照此步骤来实现创建DataHub Topic进而进入实验。

  • step1:保证账号在登录状态,点击已创建project操作栏中的查看进入project。

查看project

  • step2:进入DataHub Project,点击右上角创建Topic

创建DH topic

  • step3:在创建Topic弹出框中配置相关信息,继而点击创建

配置DH topic

成功DH topic

上传csv数据

确保阿里云账号处于登录状态,并处在阿里云DataHub控制台。

  • step1:切换至数据采集tab页中,选择并点击文件上传

文件上传

  • step2:在上传文件弹出框中双击DataHub Project进入创建的Topic,选择相关配置项并点击选择选择文件

跳过首行选项中配置为,文件编码选择为utf-8.

配置文件上传

  • step3:在选择文件弹出框中,选择已经下载的 tmall_user_brand.csv文件,点击开始上传文件,直至提示框显示成功即可。

选择文件上传

数据抽样

完成本地数据上传后,可以通过如下方式来确认数据的导入情况。

  • step1:确保阿里云账号处于登录状态。在DataHub控制台左侧切换至项目管理tab页面,进而点击项目名称后的查看,进入project。

返回查看DH pj

  • step2:点击Topic操作栏中的查看,进入具体的DataHub Topic中。

返回查看DH topic

  • step3:点击通道操作栏中的数据抽样,进行查看数据上传情况。

数据抽样

  • step4:选择指定时间为小于或者等于数据上传时间,并点击数据抽样进行数据预览。

数据预览

数据抽样页面会根据配置的条件进行展示已经上传的数据。如上图所示,表示成功上传了csv文件数据,有兴趣的同学也可以进行对比。

>>>点击进入《实时数据分析:海量日志数据多维透视》篇

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11天前
|
机器学习/深度学习 供应链 大数据
【2023Mathorcup大数据】B题 电商零售商家需求预测及库存优化问题 python代码解析
本文提供了2023年MathorCup大数据竞赛B题的电商零售商家需求预测及库存优化问题的Python代码解析,涉及数据预处理、特征工程、时间序列预测、聚类分析以及模型预测性能评价等步骤。
47 0
|
3天前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
3天前
|
消息中间件 监控 搜索推荐
OpenFeign日志组件Logger原理与应用
该文章详细解释了如何在OpenFeign中配置并使用请求和响应的GZIP压缩功能。
|
13天前
|
弹性计算 缓存 监控
基于“日志审计应用”的 DNS 日志洞察实践
DNS 解析日志是一种记录 DNS 请求和响应的基础信息,监控 DNS 服务可以帮助用户识别网络活动并保持系统安全。日志审计服务支持采集 DNS 内网解析日志、公网权威解析日志、GTM 日志。理解 DNS 日志的字段含义,洞察 DNS 日志背后所代表的网络信息,既可以帮助发现和诊断 DNS 解析相关的问题,还可以检测和识别潜在的安全威胁。
7786 9
|
3天前
|
存储 缓存 NoSQL
深入解析Memcached:内部机制、存储结构及在大数据中的应用
深入解析Memcached:内部机制、存储结构及在大数据中的应用
|
5天前
|
人工智能 数据库连接 Go
Golang 搭建 WebSocket 应用(五) - 消息推送日志
Golang 搭建 WebSocket 应用(五) - 消息推送日志
9 1
|
5天前
|
消息中间件 数据采集 关系型数据库
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
20 1
|
5天前
|
数据采集 关系型数据库 MySQL
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
15 1
|
5天前
|
数据采集 大数据
大数据-业务数据采集-FlinkCDC DebeziumSourceFunction via the 'serverTimezone' configuration property
大数据-业务数据采集-FlinkCDC DebeziumSourceFunction via the 'serverTimezone' configuration property
16 1
|
5天前
|
JSON 关系型数据库 大数据
大数据-业务数据采集-FlinkCDC
大数据-业务数据采集-FlinkCDC
24 1

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute