奈学:数据湖有哪些缺点?

简介: 数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

(一)数据湖的数据可能并不会真正做到实时。在业务环境下,如果把所有数据都放到数据湖里,那么从数据湖直接调用数据的过程可能比原来数据仓库更慢,因为从数据湖中提取出来的数据,依然要经过清洗实现标准化后才能更好的利用。具体能否达到需求的低时延效果,还要根据具体应用场景来进行判断。

(二)把所有的原始数据都放到数据湖,可能会提升数据的使用难度。对于大型企业而言,业务内容丰富,操作系统繁杂,数据使用者往往期望所有的数据都能平民化,就像数据仓库提供的那种经过了精心处理的数据,能够轻松调度和使用来实现对业务的指导。如果是数据湖提供的原始化数据,其本身是很复杂的,数据专家进行理解和处理时或许难度适中,但大多数的平民用户能否消化、理解并利用这些数据,将会是一个巨大的疑问。

(三)数据治理问题。数据仓库里的数据是经过整理、清晰易懂的。但数据湖的概念是不经处理直接进行堆砌,那么数据湖就有可能会变成“数据沼泽”,筛选难度会变大。当然,数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,比如从数据湖到数据池塘,如何将数据进行分流、池塘的数据如何进行整理等。

本文来源于:奈学开发者社区

相关文章
|
JavaScript 开发者
Vue状态管理: 在Vuex中,什么是mutation?它们应该如何使用?
Vue状态管理: 在Vuex中,什么是mutation?它们应该如何使用?
421 4
|
Python
【代码片段】利用python多进程进行接口并发测试
利用python多进程进行接口并发测试
352 0
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
596 4
PR曲线、ROC曲线、AUC能干个啥
评判二分类分类器性能的指标有那么多,为什么PR曲线、ROC曲线、AUC值这几个用的比较多。本文从概念、代码实现方面着手进行分享。
PR曲线、ROC曲线、AUC能干个啥
|
存储 关系型数据库 MySQL
Mysql 用户管理(创建、删除、改密、授予权限、取消权限)
Mysql 用户管理(创建、删除、改密、授予权限、取消权限)
1334 0
WordPress软件下载主题Inpandora
Inpandora(中文名为潘多拉)是一款基于软件下载站定制的WordPress主题,帮助站长使用WordPress快速搭建一个专业的WordPress软件博客。Inpandora这款WordPress主题可以说是因软件而生,从UI设计到后台设置功能,都充分体现出这款主题的专业性。
223 2
|
机器学习/深度学习 人工智能 物联网
快速玩转 Llama2 机器学习 PAI 最佳实践(一)低代码 Lora 微调及部署
采用阿里云机器学习平台PAI-快速开始模块针对 Llama-2-7b-chat 进行开发。PAI-快速开始支持基于开源模型的低代码训练、布署和推理全流程,适合想要快速开箱体验预训练模型的开发者。
69303 59
|
缓存 编译器 程序员
C/C++编译器全局优化技术:全局优化是针对整个程序进行的优化,包括函数之间的优化
C/C++编译器全局优化技术:全局优化是针对整个程序进行的优化,包括函数之间的优化
362 0
|
机器学习/深度学习 计算机视觉
【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒
【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒
383 0
【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒
|
编解码 Python
ArcGIS:如何解决模型构建器报错<内存不足>?
ArcGIS:如何解决模型构建器报错<内存不足>?
842 0