奈学:数据湖有哪些缺点?

简介: 数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。

(一)数据湖的数据可能并不会真正做到实时。在业务环境下,如果把所有数据都放到数据湖里,那么从数据湖直接调用数据的过程可能比原来数据仓库更慢,因为从数据湖中提取出来的数据,依然要经过清洗实现标准化后才能更好的利用。具体能否达到需求的低时延效果,还要根据具体应用场景来进行判断。

(二)把所有的原始数据都放到数据湖,可能会提升数据的使用难度。对于大型企业而言,业务内容丰富,操作系统繁杂,数据使用者往往期望所有的数据都能平民化,就像数据仓库提供的那种经过了精心处理的数据,能够轻松调度和使用来实现对业务的指导。如果是数据湖提供的原始化数据,其本身是很复杂的,数据专家进行理解和处理时或许难度适中,但大多数的平民用户能否消化、理解并利用这些数据,将会是一个巨大的疑问。

(三)数据治理问题。数据仓库里的数据是经过整理、清晰易懂的。但数据湖的概念是不经处理直接进行堆砌,那么数据湖就有可能会变成“数据沼泽”,筛选难度会变大。当然,数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,比如从数据湖到数据池塘,如何将数据进行分流、池塘的数据如何进行整理等。

本文来源于:奈学开发者社区

相关文章
|
10月前
|
安全 5G 数据安全/隐私保护
微信怎么一天加200人?有方法吗
微信高效添加好友的合规操作指南(2025版)
|
安全 Java
final关键字
final关键字
467 0
|
机器学习/深度学习 人工智能 物联网
快速玩转 Llama2 机器学习 PAI 最佳实践(一)低代码 Lora 微调及部署
采用阿里云机器学习平台PAI-快速开始模块针对 Llama-2-7b-chat 进行开发。PAI-快速开始支持基于开源模型的低代码训练、布署和推理全流程,适合想要快速开箱体验预训练模型的开发者。
69814 59
|
IDE Cloud Native 小程序
IDEA 中 30 秒生成 Spring Cloud Alibaba 工程
近日,阿里巴巴发布了 Spring 的国内脚手架定制版 Aliyun Java Initializer,因为全中文界面和流畅速度,被广大开发者热传。Spring 脚手架为开发者提供了丰富的可选组件,并且可以选择多种打包方式,大大方便了开发人员的使用。
17408 0
IDEA 中 30 秒生成 Spring Cloud Alibaba 工程
|
程序员
控制语句
一、控制语句 控制语句是编程语言中用于控制程序流程的语句。它们允许程序根据特定条件执行不同的代码块,或者重复执行一段代码,从而实现程序的灵活性和逻辑控制。 常见的控制语句包括: 1. 条件语句(if语句):根据条件的真假来执行不同的代码块。例如: ``` if (条件) { // 如果条件为真,执行这里的代码 } else { // 如果条件为假,执行这里的代码 } ``` 2. 循环语句(for循环、while循环):重复执行一段代码块,直到满足特定条件。例如: ``` for (初始化; 条件; 更新) { // 在条件满足的情况下,重复执行这里的代码 } whil
768 0
|
Web App开发 JavaScript 前端开发
Axure教程:外卖订单平台——用中继器做商品列表购物车
Axure教程:外卖订单平台——用中继器做商品列表购物车
Axure教程:外卖订单平台——用中继器做商品列表购物车
|
SQL 自然语言处理 算法
比开源快30倍的自研SQL Parser设计与实践
SQL作为一种领域语言,最早用于关系型数据库,方便管理结构化数据;SQL由多种不同的类型的语言组成,包括数据定义语言,数据控制语言、数据操作语言;各数据库产品都有不同的声明和实现;用户可以很方便的使用SQL操作数据,数据库系统中的词法语法分析器负责分析和理解SQL文本的含义,包括词法分析、语法分析、语义分析3部分。
比开源快30倍的自研SQL Parser设计与实践
|
JavaScript API
Docsify使用指南(打造最快捷、最轻量级的个人&团队文档)
Docsify使用指南(打造最快捷、最轻量级的个人&团队文档)
1931 0
Docsify使用指南(打造最快捷、最轻量级的个人&团队文档)
|
前端开发 JavaScript 开发者
【react从入门到精通】深入理解React生命周期
在上一篇文章《react入门这一篇就够了》中我们已经掌握了React的基本知识。通过使用React组件我们对页面进行渲染;通过使用React事件处理函数对用户操作进行响应;通过React状态的改变对页面进行刷新。本文中我们将深入的了解React的生命周期,以及在这些生命周期可以做些什么。
301 0