聊聊数据库

简介: 聊聊数据库

数据湖


数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。


这是 AWS 给出的解释。

看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的 ODS 数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。比如电商网站的访问日志(埋点的时候是以 JSON 存储),物联网终端设备实时发送的数据等原始数据直接存储在数据仓库的 ODS 层。

数据湖为什么火了

做数据仓库已经有 ODS 数据了,那么怎么突然大家都在提数据湖了?

真正的原因在于数据分析和机器学习这两年成为了主流,可以看看现在的招聘网站,很多招聘数据分析师和算法工程师的岗位,笔者所在城市尤为明显。15 年的时候大家都在建立各自的大数据平台,那时候你懂点 Hadoop,已经很了不起了。现在各个大数据平台已经建设成熟,逐步为业务服务,越来越多的公司需要利用大数据服务于业务,提升变现能力。

基于大数据建设的数据仓库往往是各个维度的聚合数据,大多服务于传统的报表分析。而机器学习往往需要使用到原始数据,另外很多机器学习用到的也不至于格式化数据,用户的评论,图像等都可以应用到机器学习中。


为什么要有数据湖

网络异常,图片无法展示
|


可以看下上面的这个组织架构图。数据湖的存在更多的是改变部门的组织架构,毕竟现在大部分公司都更注重业务分析的价值。

传统企业的数据团队被当做 IT 体系,整天要求提数。现在,数据团队只需要负责提供简单易用的工具,业务部门直接进行数据的使用。这也就是人人具备数据分析能力(人人都是数据分析师)。


数据湖 vs 数据仓库


网络异常,图片无法展示
|


这是 AWS 给出的对比,还是比较中肯的。


传统的数据仓库工作方式是集中式的:业务人员给需求到数据团队,数据团队根据要求加工、开发成维度表,供业务团队通过 BI 报表工具查询或者业务分析系统展示。

数据湖是开放、自助式的:开放数据给所有人使用,数据团队更多是提供工具、环境供各业务团队使用,业务团队进行开发、分析。

和数据仓库不同的是,以前数据仓库都是先设计 schema,然后灌入数据。数据湖的 schema 是随用随生成,随着分析场景不同而不同。关于数据湖的技术实现方面可以了解下 delta lake这个项目(我司的平台部分功能在 delta lake 这个项目出来之前已经实现了一些功能)。

总结

数据湖对于数据分析师来说对数据的操控性更强,但是要求也更高,不光懂业务,懂 sql,懂数据,还要懂大数据处理技术,每个人都在处理自己需要的数据,会造成很多冗余数据存储和计算资源浪费,无法形成共性的可复用的数据层,这方面数仓是有益的补充。数据湖并不是为了颠覆数据仓库,是为了满足数仓无法满足的数据需求,二者是互补的。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 数据库
为什么需要数据库
为什么需要数据库。
16 4
|
8月前
|
关系型数据库 Linux BI
数据库的一些知识
数据库的一些知识
28 0
|
2月前
|
Go 数据库
数据库的实现
数据库的实现
11 0
|
4月前
|
存储 SQL 关系型数据库
初识数据库
初识数据库
|
10月前
|
SQL 存储 NoSQL
数据库详解
数据库详解
52 0
|
9月前
|
存储 监控 数据处理
数据库
5.6.1 广播幻灯片 PowerPoint 2010新增了“广播幻灯片”功能,使得用户能够与任何人在任何位置轻松共享演示文稿。 打开要共享的演示文稿,切换到“幻灯片放映”选项卡,单击“广播幻灯片”按钮,将弹出“广播幻灯片”对话框 5.6.2 演示文稿的网上发布 用户可以将制作好的演示文稿发布到Web,这样用户和访问群体只要连接到Web,就可以对演示文稿进行查看和编辑。 第六部分 数据库技术与Access 2010 6.1.1 数据库的基本概念 1.数据 数据是指存储在某一种媒体上能够识别的物理符号 2.数据处理 数据处理是指对各种形式的数据进行收集、存储、加工和传播的一系列活动的总
|
10月前
|
SQL 安全 数据库
【数据库视频】总结
【数据库视频】总结
|
10月前
|
存储 消息中间件 NoSQL
数据库常识课
数据库常识课
50 0
|
存储 监控 程序员
数据库(二)
数据库(二)
82 0
|
SQL 存储 XML
一、初识数据库
将大量数据保存起来,使用计算机加工而成的可以进行高效访问的数据集合。称为database,DB。 用来管理数据库的计算机系统称为DBMS