通过LogShipper对接数据仓库

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
文件存储 NAS,50GB 3个月
简介: 日志服务[LogShipper](~~43724~~)功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算

日志服务LogShipper功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。

数仓(离线计算)

数据仓库+离线计算是实时计算的补充,两者针对目标不同:

模式 优势 劣势 使用领域
实时计算 快速 计算较为简单 增量为主,监控、实时分析
离线计算(数据仓库) 精准、计算能力强 较慢 全量为主,BI、数据统计、比较

目前对于数据分析类需求,同一份数据会同时做实时计算+数据仓库(离线计算)。例如对访问日志:

  • 通过流计算实时显示大盘数据:当前PV、UV、各运营商信息
  • 每天晚上对全量数据进行细节分析,比较增长量、同步/环比,Top数据等

互联网领域有两种经典的模式讨论:

  • Lamdba Architecture: 数据进来后,既支持流式处理、同时存入数仓。但用户发起查询时,会根据查询需求和复杂度从实时计算、离线计算拿结果返回
  • Kappa Architecture: kafka based Architecture。弱化离线计算部分,数据存储都在Kafka中,实时计算解决所有问题

日志服务提供模式比较偏向Lamdba Architecture。

LogHub/LogShipper一站式解决实时+离线场景

在创建Logstore后,可以在控制台配置LogShipper支持数据仓库对接,当前支持如下:

dw

LogShipper提供如下功能:

  1. 准实时:分钟级进入数据仓库
  2. 数据量大:无需担心并发量
  3. 自动重试:遇到故障自动重试、也可以通过API手动重试
  4. 任务API:通过API可以获得时间段日志投递状态
  5. 自动压缩:支持数据压缩、节省存储带宽

典型场景

场景1:日志审计

小A维护了一个论坛,需要对论坛所有访问日志进行审计和离线分析

  • G部门需要小A配合记录最近180天内用户访问情况,在有需求时,提供某个时间段的访问日志
  • 运营同学在每个季度需要对日志出一份访问报表

小A使用日志服务(LOG)收集服务器上日志数据,并且打开了日志投递(LogShipper)功能,日志服务就会自动完成日志收集、投递、以及压缩。有审查需要时,可以将该时间段日志授权给第三方。需要离线分析时,利用E-MapReduce跑一个30分钟离线任务,用最少的成本办了两件事情。

场景2:日志实时+离线分析

小B是一个开源软件爱好者,喜欢利用Spark进行数据分析,他的需求如下:

  • 移动端通过API收集日志
  • 通过Spark Streaming对日志进行实时分析,统计线上用户访问
  • 通过Hive进行T+1离线分析
  • 将日志数据开放给下游代理商,进行其他维度分析

通过今天LOG+OSS+EMR+RAM组合,可轻松应对这类需求。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
数据采集 机器学习/深度学习 存储
数据仓库与数据湖:不同的数据管理方式
在当今数据驱动的时代,数据管理成为了企业发展的关键。数据仓库和数据湖是两种不同的数据管理方式。本文将介绍数据仓库和数据湖的概念及其应用,并分析其优缺点,帮助企业选择适合自身的数据管理方式。
|
9月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
1月前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
77 5
|
2月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
9月前
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓
|
11月前
|
监控 大数据 领域建模
如何搭建一个数据仓库
如何搭建一个数据仓库
|
10月前
|
分布式计算 运维 Hadoop
数据仓库搭建
数据仓库搭建
160 0
|
数据采集 SQL 存储
数据仓库—数据治理
数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核流程等内容。
957 0
数据仓库—数据治理
|
消息中间件 存储 供应链
数据仓库介绍与实时数仓案例
1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
41858 10
|
存储 数据采集 人工智能
数据仓库(01)什么是数据仓库,数仓有什么特点
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
387 1