胖子哥的大数据之路(一)-数据仓库也需要大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一、楔子   大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

一、楔子

  大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

二、项目背景

  最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发现,原来二者并不矛盾。

三、数据仓库与操作数据库

  数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

  数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

  1)用户系统的面向性:客户与市场;

  2)数据内容:当前与历史;

  3)数据库设计:ER与面向主题

  4)视图:当前与全景

  5)访问模式:原子事务与只读操作

  传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

数据仓库的三层架构如下图所示:

四、大数据的位置

  数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

  1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

  2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

  3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

五、遗留问题

  大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...


作者:张子良
出处:http://www.cnblogs.com/hadoopdev
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 大数据
图解大数据 | 大数据生态与应用导论
随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。
243 0
图解大数据 | 大数据生态与应用导论
|
SQL 机器学习/深度学习 弹性计算
轻松入门学习大数据学习报告
①基于EMR离线数据分析 ②使用阿里云Elasticsearch快速搭建智能运维系统 ③推荐系统入门之使用协同过滤实现商品推荐 在实验室对照着多做几次就更更熟练 https://developer.aliyun.com/adc/series/wintercamplist5?spm=a2c6h.26214320.J_2685610230.2.26fe64f86knK9t
233 0
轻松入门学习大数据学习报告
|
存储 传感器 分布式计算
大数据学习心得
大数据学习心得
|
SQL 弹性计算 分布式计算
轻松入门学习大数据-学习报告
轻松入门学习大数据-学习报告
155 0
|
SQL 弹性计算 分布式计算
入门学习大数据-学习报告
入门学习大数据-学习报告
151 0
|
SQL 分布式计算 DataWorks
【含视频+文字版】《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季
亲爱的大数据开发者们,新年好!在过去的2019年中,MaxCompute开发者社区共举办了六季大数据技术公开课,也受到广大开发者们的认可和鼓励。2月份我们已经紧锣密鼓的筹备了新年的第一季大数据技术公开课—《从开源到云原生,你不得不知的大数据实战》,欢迎各位开发者们一起参加。
2506 0
【含视频+文字版】《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季
|
数据采集 大数据
胖子哥的大数据之路(16):数据采集标准-我们到底需要什么样的数据?
一、前言       刚刚有一个好友向我咨询数据相关的问题,朋友目前是IT设备生产厂商的人。从好友的描述中,提到对用户特征获取的需求。包括:人的兴趣爱好、关注焦点等,在用户的描述中其实只是直觉性的列决出了几点,然后基于此作相应的后续产品或服务推荐。
885 0
|
大数据 开发者 程序员
15篇大数据精品文章大合集
这一次,开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。
1238 0
|
存储 物联网 大数据
|
大数据 云计算
杂谈大数据
错误的“大数据”称呼,“元芳”你怎么看?数据真的能推动人类文明的发展?数据真的能改变经济体制?今天我们就带着这些问题,温一杯茶,杂谈大数据的那些事。
4460 0