大数据小白，公司需要落地大数据平台，数仓选型，选lambda还是hudi架构？

公司规模为500人，为互联网金融领域公司，数据量为一天5T数据，从0开始搭建大数据平台，了解lambda和hudi各有优缺点，希望有大佬指点

展开

收起

老码农96 2023-10-07 16:46:00 387 版权

3 条回答

写回答

取消提交回答

Kinging
选择大数据平台的架构取决于您的具体业务需求和数据处理场景。以下是关于 Lambda 架构和 Hudi 架构的一些优缺点，希望对您做出选择时有所帮助：

Lambda 架构：
- 优点：
  灵活性：Lambda 架构支持批处理和流处理的结合，可以同时处理实时和离线数据。
  容错性：Lambda 架构具有高度的容错性，使系统对故障具有较好的鲁棒性。
  简化开发：Lambda 架构可以使用已经存在的开源批处理和流处理工具进行开发，如 Apache Hadoop、Apache Spark 和 Apache Flink。
- 缺点：
  复杂性：Lambda 架构在开发和管理方面具有一定的复杂性，需要同时维护批处理和流处理代码。
  延迟：由于分别进行实时和离线处理，所以 Lambda 架构可能存在一定的延迟。
Hudi 架构：
- 优点：
  时态性：Hudi 架构支持对数据进行增量更新，使其具有更好的时态性和可追溯性。
  性能：Hudi 架构在处理大规模数据时具有良好的性能，并可提供低延迟的查询。
  简化开发：Hudi 提供了易于使用的 API 和命令行工具，简化了开发和维护工作。
- 缺点：
  生态系统：相比一些更成熟的架构，Hudi 相对较新，其生态系统可能没有 Lambda 架构那么丰富。
  学习曲线：为了正确使用 Hudi 架构，可能需要对其内部工作原理和配置进行一定的学习和调优。
鉴于您的公司规模、行业和数据量，以及从零开始搭建大数据平台的情况，我建议您根据以下几点考虑进行选择：
- 如果实时性是您的主要关注点，并且您对数据一致性要求较高，那么 Lambda 架构可能更适合，因为它提供了同时处理实时和离线数据的能力。
- 如果您在处理大规模数据时更关注时态性和性能，并且对架构的复杂性有一定的容忍度，那么 Hudi 架构可能更适合，特别是当您需要进行增量更新和低延迟查询时。
无论您选择哪种架构，都要确保您有足够的资源、经验和专业支持来进行搭建、部署和维护大数据平台。

最重要的是，建议在做出选择之前，从您的团队和业务需求出发，调研和评估不同的解决方案，可能对您的具体情况进行原型验证，并咨询领域专家或大数据架构师的意见，以选择最适合您业务需求的大数据平台架构。
2023-10-11 21:09:43

赞同展开评论
Star时光
当从零开始搭建大数据平台，并且你的公司规模为500人，互联网金融领域，每天处理5T数据时，可以考虑以下关于Lambda架构和Apache Hudi的优缺点。

Lambda架构：
- 优点：
  
  实时性：Lambda架构支持实时数据处理，通过将数据流分成批处理和流处理两个路径，可以同时满足低延迟和高吞吐量的需求。
  可伸缩性：Lambda架构允许水平扩展，可以根据需求增加计算节点和存储节点来应对不断增长的数据量。
  数据可靠性：由于Lambda架构中包含了批处理和流处理两个部分，可以保证数据的容错性和可靠性。
- 缺点：
  
  复杂性：Lambda架构需要维护两个独立的数据处理路径（批处理和流处理），这增加了系统的复杂性和运维成本。
  延迟：尽管Lambda架构支持实时处理，但由于需要进行批处理和流处理的整合，可能会导致一定的延迟。
Apache Hudi：
- 优点：
  
  增量更新：Hudi提供了增量更新机制，可以有效地处理大型数据集的增量更新操作。
  最终一致性：Hudi提供了最终一致性的数据视图，可以保证在写入和查询过程中的数据一致性。
  支持多种数据格式和存储后端：Hudi支持多种数据格式（如Parquet、Avro）和存储后端（如HDFS、AWS S3），灵活适应不同场景需求。
- 缺点：
  
  学习曲线：使用Hudi需要学习和掌握其相关概念和操作方式，可能需要一些时间来熟悉。
  维护成本：Hudi的配置和维护可能需要较高的技术水平和资源投入。
根据你的情况，如果你希望建立一个实时的大数据处理平台，并且对延迟要求较高，Lambda架构可能是一个不错的选择。它可以通过批处理和流处理的组合来满足低延迟和高吞吐量的需求。

然而，如果你更关注增量更新和最终一致性等方面，以及支持多种数据格式和存储后端的灵活性，那么Apache Hudi可能更适合你的需求。

综合考虑公司规模、业务类型和数据处理量等因素，你还可以进一步调研和评估其他大数据平台解决方案，比如Apache Kafka、Apache Flink、Apache Spark等，以找到最适合你的需求的架构和技术选型。
2023-10-08 13:20:16

赞同 1 展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
根据您的需求，我建议您采用以下方案：
1. 数据存储：您可以使用Hadoop HDFS作为底层存储，用于存储海量数据。Hadoop HDFS具有高可用性和可扩展性，适合存储大规模数据。
2. 数据处理：您可以使用Apache Spark作为数据处理引擎。Apache Spark具有快速、可扩展和易用的特点，适合处理大规模数据。
3. 数据计算：您可以使用Apache Flink作为流处理引擎。Apache Flink具有低延迟、高吞吐量和可扩展性等特点，适合处理实时数据流。
4. 数据查询：您可以使用Apache HBase作为分布式数据库，用于存储和查询海量数据。Apache HBase具有高可用性和可扩展性，适合存储和查询大规模数据。
2023-10-07 22:30:40

赞同展开评论

大数据小白，公司需要落地大数据平台，数仓选型，选lambda还是hudi架构？

数据仓库

相关文章

相关解决方案

热门讨论

热门文章