大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验涉及大数据产品

前提准备

必备条件:

  • 已经从云中沙箱中获取了实验所需的阿里云账号和密码。
  • 点击下载实验数据,体验阿里云DataHub。
  • 如果您已经创建了DataHub Project,即可跳过创建DataHub Topic章节,直接进入创建DataHub Topic章节

创建DataHub Project

阿里云DataHub默认对所有云账号为开通状态,只需要创建项目所需的Project和Topic即可。

阿里云DataHub project名称是全局唯一的,建议大家本次实验按照workshop_abc的规则来命名,abc为您获取的云账号后三位数字。如获取云账号为train00620@aliyun-inc.com,那么project名称命名为workshop_620。

下次再说

  • step2:点击右上角创建Project
    创建project
  • step3:填写Project名称和描述,点击创建,如下图所示,表示DataHub Project已经创建成功。
    配置Project

配置成功

创建DataHub Topic

已经创建了Project的用户可以直接按照此步骤来实现创建DataHub Topic进而进入实验。

  • step1:保证账号在登录状态,点击已创建project操作栏中的查看进入project。

查看project

  • step2:进入DataHub Project,点击右上角创建Topic

创建DH topic

  • step3:在创建Topic弹出框中配置相关信息,继而点击创建

配置DH topic

成功DH topic

上传csv数据

确保阿里云账号处于登录状态,并处在阿里云DataHub控制台。

  • step1:切换至数据采集tab页中,选择并点击文件上传

文件上传

  • step2:在上传文件弹出框中双击DataHub Project进入创建的Topic,选择相关配置项并点击选择选择文件

跳过首行选项中配置为,文件编码选择为utf-8.

配置文件上传

  • step3:在选择文件弹出框中,选择已经下载的 tmall_user_brand.csv文件,点击开始上传文件,直至提示框显示成功即可。

选择文件上传

数据抽样

完成本地数据上传后,可以通过如下方式来确认数据的导入情况。

  • step1:确保阿里云账号处于登录状态。在DataHub控制台左侧切换至项目管理tab页面,进而点击项目名称后的查看,进入project。

返回查看DH pj

  • step2:点击Topic操作栏中的查看,进入具体的DataHub Topic中。

返回查看DH topic

  • step3:点击通道操作栏中的数据抽样,进行查看数据上传情况。

数据抽样

  • step4:选择指定时间为小于或者等于数据上传时间,并点击数据抽样进行数据预览。

数据预览

数据抽样页面会根据配置的条件进行展示已经上传的数据。如上图所示,表示成功上传了csv文件数据,有兴趣的同学也可以进行对比。

>>>点击进入《实时数据分析:海量日志数据多维透视》篇

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
1月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
59 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
【10月更文挑战第2天】在处理大规模数据集的推荐系统项目时,提高检索模型的召回率成为关键挑战。本文分享了通过改进特征工程(如加入用户活跃时段和物品相似度)和优化模型结构(引入注意力机制)来提升召回率的具体策略与实现代码。严格的A/B测试验证了新模型的有效性,为改善用户体验奠定了基础。这次实践加深了对特征工程与模型优化的理解,并为未来的技术探索提供了方向。
97 2
深度解析:如何通过精妙的特征工程与创新模型结构大幅提升推荐系统中的召回率,带你一步步攻克大数据检索难题
|
27天前
|
数据采集 算法 大数据
大数据中噪声数据处理
【10月更文挑战第20天】
201 2
|
1月前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
38 4
ly~
|
1月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
112 2
|
1月前
|
存储 Prometheus NoSQL
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
25 3
|
1月前
|
存储 消息中间件 大数据
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
41 1
|
1月前
|
存储 消息中间件 大数据
大数据-68 Kafka 高级特性 物理存储 日志存储概述
大数据-68 Kafka 高级特性 物理存储 日志存储概述
27 1
ly~
|
1月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
317 2

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 推荐镜像

    更多
    下一篇
    无影云桌面