开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

LakeHouse出现之前,数据湖主要存在哪些痛点?

LakeHouse出现之前,数据湖主要存在哪些痛点?

展开
收起
游客lmkkns5ck6auu 2022-07-28 15:58:41 344 0
1 条回答
写回答
取消 提交回答
  • (1)读写并行,就算是追加写的模式也会产生很多问题。用户的期望是所有写操作能够事务性地被同时读到或者同时没有读到,而这是难以实现的,因为在分布式的对象存储上写多个文件,设置一个文件,数据的一致性都是不能完全被保证的。

    (2)数据的修改。由于安全合规等原因,用户会有强制地修改已有数据的需求,特别是有时候需要根据过滤结果细粒度地修改某些数据。由于数据湖在数据管控能力上的不足,在数据湖上实现此需求往往需要使用全部扫描再重写的方式,成本比较高,速度也比较慢。

    (3)如果一个作业中途失败,而它产生的部分数据已经存入到数据库中,这也会导致数据的损坏。

    (4)批流混合输入。由于数据在批和流系统中都存在,可能会造成数据在两套系统中不一致,导致读取结果不一致。

    (5)存数据历史。有些用户需要保证数据查询的可重复性,方案之一是为了这个需求做很多重复的数据快照,但这会导致数据的存储和计算成本都大幅上升。

    (6)处理海量的元数据。大型数据湖元数据的数据量非常大,经常能够达到大数据的级别。 很多数据湖采用的数据目录系统无法支持如此大量的元数据,这也限制了数据湖的扩展性。

    (7)大量小文件的问题。在数据不断输入的过程中,数据湖内会产生大量小文件,随着时间的推移,小文件的数量可能会越来越多,这会严重影响据湖的读取性能。 (8)性能问题。在数据湖上达到高性能不是一件容易的事。有的时候为了达到一定的性能要求,用户需要手动做一些性能的优化,比如数据分区等,而这些手动的操作又比较容易出错。 (9)数据的查询管控。由数据湖的开放性,确保查询权限合规也是需要解决的问题。

    (10)质量问题。前面很多点都会导致数据质量的问题。在大数据场景下,如何确保数据的正确性也是一个普遍的问题。

    以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:22:59
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
数据湖技术解析 立即下载
基于MaxCompute快速打通数仓和数据湖:湖仓一体实践 立即下载
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载