E-MapReduce助力建设企业级数据仓库

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介:

概述

对于大部分的企业,数据一般存在两个地方,一个是业务数据库,一个是日志。一般来讲,数据库数据容量有限,对于历史标记删除的记录一般会做定时清理,但是这些数据往往还是很有价值的。数据库计算能力也有限,如果要做一些数据分析,则会浪费宝贵的计算资源。
一些数据分析会横跨不能的部门,不同的业务线,往往需要不同DB之间,甚至需要跟日志做一些关联,这时就会有一个新的部门,数据仓库部门或者数据分析部门。此部门需要做第一件事情就是需要把不同的业务线的数据统统收集到一个中心。以往选择数据处理技术往往是一些商业的数据仓库。在Hadoop技术来临之后,由于其易用性、高度扩展性、低成本的优势,受到了越来越多的公司使用。本文将简单介绍使用E-MapReduce建设数据仓库。

建立数据仓库

大致的架构如下图所示:

screenshot
  • 在RDS mysql部分的数据,可以每天晚上同步一次全量的数据到离线存储中,使用emapreduce sqoop,按照日期建立分区。
    查询时,可以按照
    select count(*) form cluster where ds='2016-08-28'
  • 日志数据可以采取logservice同步到OSS中,或者使用flume同步到emapreduce hdfs中。也是按照日期做分区。

日志收集好后,就可以采取hive或者spark引擎分析日志了,比如出报表,则可以把算完的数据插入到emapreduce hbase中或者RDS mysql中,再通过 阿里云提供的quick bi出报表。 每天早上就可以看到 前一天的业务状况等信息了。

作业执行

同步作业及分析作业可以采取阿里云emapreduce提供的执行计划来运行,可以新建一个执行计划,串联多个作业,当同步作业完成后,就开始分析作业。 这里还提供了 作业失败报警,启动超时报警等实用功能。

screenshot


HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
SQL 分布式计算 运维
企业级 SaaS 模式云数据仓库MaxCompute实战案例|阿里云产品内容精选(二十八)
本文给大家推荐一下关于MaxCompute的实战案例及相关探索。
|
存储 分布式计算 安全
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生
日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生
|
存储 分布式计算 安全
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生,有效提升企业数据安全管理水平
日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。
553 0
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生,有效提升企业数据安全管理水平
|
存储 分布式计算 安全
SaaS模式云数据仓库MaxCompute发布企业级新能力:兼顾成本与性能,持续保护云上数据及服务安全
2020年6月9日,阿里云MaxCompute全新发布企业级新能力,在成本、性能、安全方面,持续定义企业级SaaS模式云数据仓库,通过 “云数据仓库+” 的新模式,帮助企业实现数字经济新优势。
663 0
SaaS模式云数据仓库MaxCompute发布企业级新能力:兼顾成本与性能,持续保护云上数据及服务安全
|
数据采集 OLAP OLTP
构建企业级数据仓库五步法
在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了数据大集中的作用。
1970 0
|
分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊
本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。
1804 0
|
2月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
3月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库操作报错合集之遇到报错“DDL forbidden because backupTask is doing snapshot”如何处理
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
下一篇
无影云桌面