E-MapReduce助力建设企业级数据仓库-阿里云开发者社区

开发者社区> hbase小能手> 正文

E-MapReduce助力建设企业级数据仓库

简介:
+关注继续查看

概述

对于大部分的企业,数据一般存在两个地方,一个是业务数据库,一个是日志。一般来讲,数据库数据容量有限,对于历史标记删除的记录一般会做定时清理,但是这些数据往往还是很有价值的。数据库计算能力也有限,如果要做一些数据分析,则会浪费宝贵的计算资源。
一些数据分析会横跨不能的部门,不同的业务线,往往需要不同DB之间,甚至需要跟日志做一些关联,这时就会有一个新的部门,数据仓库部门或者数据分析部门。此部门需要做第一件事情就是需要把不同的业务线的数据统统收集到一个中心。以往选择数据处理技术往往是一些商业的数据仓库。在Hadoop技术来临之后,由于其易用性、高度扩展性、低成本的优势,受到了越来越多的公司使用。本文将简单介绍使用E-MapReduce建设数据仓库。

建立数据仓库

大致的架构如下图所示:

screenshot
  • 在RDS mysql部分的数据,可以每天晚上同步一次全量的数据到离线存储中,使用emapreduce sqoop,按照日期建立分区。
    查询时,可以按照
    select count(*) form cluster where ds='2016-08-28'
  • 日志数据可以采取logservice同步到OSS中,或者使用flume同步到emapreduce hdfs中。也是按照日期做分区。

日志收集好后,就可以采取hive或者spark引擎分析日志了,比如出报表,则可以把算完的数据插入到emapreduce hbase中或者RDS mysql中,再通过 阿里云提供的quick bi出报表。 每天早上就可以看到 前一天的业务状况等信息了。

作业执行

同步作业及分析作业可以采取阿里云emapreduce提供的执行计划来运行,可以新建一个执行计划,串联多个作业,当同步作业完成后,就开始分析作业。 这里还提供了 作业失败报警,启动超时报警等实用功能。

screenshot


HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
友盟+联合EB级云数据仓库 MaxCompute 实现友盟域和企业私域数据全面融合
国内领先的第三方全域数据智能服务商友盟+,联合阿里云EB级云数据仓库 MaxCompute 为企业提供面向分析的,实现友盟域数据与企业私域数据全面融合的自助分析服务“U-DOP数据开放”。
3858 0
【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊
本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。
1664 0
map-reduce攻击数据库引擎
http://punkspider.hyperiongray.com/
470 0
共同探索企业级数据库架构之道路
2018云栖大会南京分会企业级互联网架构专场,阿里巴巴高级数据架构师黄欢欢带来题为企业级数据架构探索之路的演讲。主要从企业数据库的发展现状、存在的问题以及企业级架构的需求开始谈起,针对其存在的问题提出了对应的解决方案,最后对企业级产品的架构以及满足企业及架构的需求问题做了详细的分析。
1571 0
干货连载 | 这才是下一代企业级数据库系统该有的样子!
数据库领域充满机遇,也布满挑战,越来越多的企业开始思考下一代数据库技术。
1037 0
怎么搭建企业级MySQL数据库服务器?
在CentOS7平台下安装MySQL数据库管理系统工具的方式有很多,我们可以选择简单的二进制数据包安装,也可以选择源码包安装,由于源码安装方式编译的灵活性,这里我们将采用源码安装的方式作为演示案例,源码安装MySQL主要分为安装依赖包、下载MySQL源码包、配置安装环境,编译及安装、初始化数据库五大步骤。
473 0
+关注
hbase小能手
HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。阿里云HBase技术团队共同探讨HBase及其生态的问题。
110
文章
338
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载