开发者社区 > 数据库 > 数据仓库 > 正文

大数据小白,公司需要落地大数据平台,数仓选型,选lambda还是hudi架构?

公司规模为500人,为互联网金融领域公司,数据量为一天5T数据,从0开始搭建大数据平台,了解lambda和hudi各有优缺点,希望有大佬指点

展开
收起
老码农96 2023-10-07 16:46:00 198 0
3 条回答
写回答
取消 提交回答
  • 选择大数据平台的架构取决于您的具体业务需求和数据处理场景。以下是关于 Lambda 架构和 Hudi 架构的一些优缺点,希望对您做出选择时有所帮助:

    Lambda 架构:

    • 优点:
      • 灵活性:Lambda 架构支持批处理和流处理的结合,可以同时处理实时和离线数据。
      • 容错性:Lambda 架构具有高度的容错性,使系统对故障具有较好的鲁棒性。
      • 简化开发:Lambda 架构可以使用已经存在的开源批处理和流处理工具进行开发,如 Apache Hadoop、Apache Spark 和 Apache Flink。
    • 缺点:
      • 复杂性:Lambda 架构在开发和管理方面具有一定的复杂性,需要同时维护批处理和流处理代码。
      • 延迟:由于分别进行实时和离线处理,所以 Lambda 架构可能存在一定的延迟。

    Hudi 架构:

    • 优点:
      • 时态性:Hudi 架构支持对数据进行增量更新,使其具有更好的时态性和可追溯性。
      • 性能:Hudi 架构在处理大规模数据时具有良好的性能,并可提供低延迟的查询。
      • 简化开发:Hudi 提供了易于使用的 API 和命令行工具,简化了开发和维护工作。
    • 缺点:
      • 生态系统:相比一些更成熟的架构,Hudi 相对较新,其生态系统可能没有 Lambda 架构那么丰富。
      • 学习曲线:为了正确使用 Hudi 架构,可能需要对其内部工作原理和配置进行一定的学习和调优。

    鉴于您的公司规模、行业和数据量,以及从零开始搭建大数据平台的情况,我建议您根据以下几点考虑进行选择:

    • 如果实时性是您的主要关注点,并且您对数据一致性要求较高,那么 Lambda 架构可能更适合,因为它提供了同时处理实时和离线数据的能力。
    • 如果您在处理大规模数据时更关注时态性和性能,并且对架构的复杂性有一定的容忍度,那么 Hudi 架构可能更适合,特别是当您需要进行增量更新和低延迟查询时。

    无论您选择哪种架构,都要确保您有足够的资源、经验和专业支持来进行搭建、部署和维护大数据平台。

    最重要的是,建议在做出选择之前,从您的团队和业务需求出发,调研和评估不同的解决方案,可能对您的具体情况进行原型验证,并咨询领域专家或大数据架构师的意见,以选择最适合您业务需求的大数据平台架构。

    2023-10-11 21:09:43
    赞同 展开评论 打赏
  • 当从零开始搭建大数据平台,并且你的公司规模为500人,互联网金融领域,每天处理5T数据时,可以考虑以下关于Lambda架构和Apache Hudi的优缺点。

    Lambda架构:

    • 优点:

      • 实时性:Lambda架构支持实时数据处理,通过将数据流分成批处理和流处理两个路径,可以同时满足低延迟和高吞吐量的需求。
      • 可伸缩性:Lambda架构允许水平扩展,可以根据需求增加计算节点和存储节点来应对不断增长的数据量。
      • 数据可靠性:由于Lambda架构中包含了批处理和流处理两个部分,可以保证数据的容错性和可靠性。
    • 缺点:

      • 复杂性:Lambda架构需要维护两个独立的数据处理路径(批处理和流处理),这增加了系统的复杂性和运维成本。
      • 延迟:尽管Lambda架构支持实时处理,但由于需要进行批处理和流处理的整合,可能会导致一定的延迟。

    Apache Hudi:

    • 优点:

      • 增量更新:Hudi提供了增量更新机制,可以有效地处理大型数据集的增量更新操作。
      • 最终一致性:Hudi提供了最终一致性的数据视图,可以保证在写入和查询过程中的数据一致性。
      • 支持多种数据格式和存储后端:Hudi支持多种数据格式(如Parquet、Avro)和存储后端(如HDFS、AWS S3),灵活适应不同场景需求。
    • 缺点:

      • 学习曲线:使用Hudi需要学习和掌握其相关概念和操作方式,可能需要一些时间来熟悉。
      • 维护成本:Hudi的配置和维护可能需要较高的技术水平和资源投入。

    根据你的情况,如果你希望建立一个实时的大数据处理平台,并且对延迟要求较高,Lambda架构可能是一个不错的选择。它可以通过批处理和流处理的组合来满足低延迟和高吞吐量的需求。

    然而,如果你更关注增量更新和最终一致性等方面,以及支持多种数据格式和存储后端的灵活性,那么Apache Hudi可能更适合你的需求。

    综合考虑公司规模、业务类型和数据处理量等因素,你还可以进一步调研和评估其他大数据平台解决方案,比如Apache Kafka、Apache Flink、Apache Spark等,以找到最适合你的需求的架构和技术选型。

    2023-10-08 13:20:16
    赞同 1 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    根据您的需求,我建议您采用以下方案:

    1. 数据存储:您可以使用Hadoop HDFS作为底层存储,用于存储海量数据。Hadoop HDFS具有高可用性和可扩展性,适合存储大规模数据。
    2. 数据处理:您可以使用Apache Spark作为数据处理引擎。Apache Spark具有快速、可扩展和易用的特点,适合处理大规模数据。
    3. 数据计算:您可以使用Apache Flink作为流处理引擎。Apache Flink具有低延迟、高吞吐量和可扩展性等特点,适合处理实时数据流。
    4. 数据查询:您可以使用Apache HBase作为分布式数据库,用于存储和查询海量数据。Apache HBase具有高可用性和可扩展性,适合存储和查询大规模数据。
    2023-10-07 22:30:40
    赞同 展开评论 打赏

阿里云自主研发的云原生数据仓库,具有高并发读写、低峰谷读写、弹性扩展、安全可靠等特性,可支持PB级别数据存储,可广泛应用于BI、机器学习、实时分析、数据挖掘等场景。包含AnalyticDB MySQL版、AnalyticDB PostgreSQL 版。

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载