胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

简介: 一、楔子   胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还是我本就苍老,顺应了IT行业的需要。25岁那年,曾被跟我一样高的漂亮美眉叫叔叔,从此再也不敢打小姑娘的注意,走上了重口味热爱阿姨级别女性的不归路;曾被三十五、六岁的同事阿姨说苍老:看你也就三十五六吧,那年我25;周一的时候,还有一个60后的同事问及我的年龄,他很含蓄的,明显带着保留的口吻问我:你是75年的吧?因为他一直认为和我一般大。

一、楔子

  胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还是我本就苍老,顺应了IT行业的需要。25岁那年,曾被跟我一样高的漂亮美眉叫叔叔,从此再也不敢打小姑娘的注意,走上了重口味热爱阿姨级别女性的不归路;曾被三十五、六岁的同事阿姨说苍老:看你也就三十五六吧,那年我25;周一的时候,还有一个60后的同事问及我的年龄,他很含蓄的,明显带着保留的口吻问我:你是75年的吧?因为他一直认为和我一般大。然后...然后泪奔。关于体型方面也是个悲剧、三围相等,体重大于身高的角色,算是已经胖出了一定层次,每次听到别人叫我胖子,就感觉小小的自尊多少受到了伤害,然后就给自己在后面加了一个哥子,算是给自己遮半张脸吧。闲话就聊到这里,还是继续胖子哥的大数据之路吧,这次要谈的还是数据仓库。

二、实时查询数据库-HDFS&HBase

  传统关系型数据库基于存储模式的问题带来的存储和访问瓶颈,是无法靠自身解决的,也就有了基于Big-Table型的NoSQL数据库用武之地,比较典型技术组合就是HDFS+HBase,利用HDFS的分布式、高可用数据存储,结合HBase面向列的数据存储模型,从而解决大数据量存储的问题;结合HBase基于Rowkey自然序的存储,从而实现海量数据快速查询。当然这种模式只适用于结构型数据,而且只适用于历史数据查询,而不适用于事务型业务的处理,从而产生了大数据在结构化数据存储方面的第一种模式:实时查询数据库;

三、大数据仓库-HDFS&Hive

  基于关系型数据库的数据仓库,同样面临数据存储规模的问题,因此在银行业务中,同样也只能存储短期的数据,其目标在在于支持基于业务年度的报表统计和业务分析,而对于超过一定期限的数据仍然在走数据磁盘或磁带存储的模式。基于大数据技术体系,采用HDFS+Hive的模式,构建大数据仓库,则可以很轻松的解决数据大基数存储的问题。从而产生了大数据在结构化数据数据存储方面的第二种模式:大数据仓库;

四、替换还是互补-大家来回答,期待你的答案

  问题一

  实时查询数据库能否替换实时操作数据库吗?

  问题二

  大数据仓库可以替代数据仓库吗?

五、关于大数据题外话  

  曾经就干货与湿货的问题,与人发生过争辩,还是不淡定了。其实对于一个口渴的人,水就是干货,同样,对于一个迷路的人,指南针就是干货。见仁见智的事,不再做争辩。重在分享,送给大数据传统企业应用实施的探路者们,送给需要的人,立此存照。

  持续更新中,未完待续。。。。

  下期预告:大数据仓库项目的需求分析该如何去做。敬请期待。

 


作者:张子良
出处:http://www.cnblogs.com/hadoopdev
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
10月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
3080 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
11月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
1061 1
|
11月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
480 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
10月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
716 0
|
10月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
804 0
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
1051 0
|
11月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
1435 0
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
488 0
|
存储 NoSQL 大数据
【大数据】LSM树,专为海量数据读写而生的数据结构
【大数据】LSM树,专为海量数据读写而生的数据结构
1025 0
|
算法 Java 大数据
大数据Java工程师必备____2021年数据结构思维导图!
大数据Java工程师必备____2021年数据结构思维导图!
232 0