Flink + Doris 做实时数仓谁有过经验？怎么做的？

展开

收起

真的很搞笑 2023-07-13 10:32:46 461 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink + Doris 是一种常见的实时数仓解决方案，可以用于实时数据处理和分析。下面是一些关于如何使用 Flink + Doris 进行实时数仓的建议：

数据采集：首先需要对数据进行采集，可以使用 Flink 的 DataStream API 或者 Table API 进行实时数据处理，将数据转换为流式数据。同时，可以使用 Flink 的 Connector 或者 Kafka、RocketMQ 等消息中间件进行数据的接收和发送。

数据处理：在 Flink 中，可以使用各种算子对数据进行实时处理和转换，例如 Map、FlatMap、Filter、KeyBy、Window、Join 等。根据实际需求，选择合适的算子进行数据处理。同时，需要注意算子的并行度、状态管理等问题，以确保任务的性能和可靠性。

数据存储：在 Flink 中，可以使用不同的状态后端和存储后端来存储数据，例如 RocksDB、HDFS、Kudu、Doris 等。其中，Doris 是一种分布式列存储数据库，可以用于实时数据存储和分析。可以使用 Flink 的 Doris Connector 将数据写入 Doris 数据库中，实现实时数据存储和查询。

数据可视化：最后，需要将数据可视化，以便用户进行数据分析和决策。可以使用各种 BI 工具进行数据可视化，例如 Tableau、Power BI、Superset 等。

2023-07-30 09:39:12

赞同展开评论
Star时光

结合 Flink 和 Doris（也称为Palo）构建实时数仓是一种常见的架构，可以实现实时数据处理和分析。以下是一些常见的步骤和思路：

1. 数据源接入：首先，您需要将数据源连接到 Flink 中，例如使用 Flink 提供的 Kafka Connector 将数据从 Kafka 主题读取到 Flink 中。根据您的数据源类型，可能需要选择适当的 Flink Connector 或自定义源。

2. 实时计算：使用 Flink 进行实时计算任务，对输入的数据进行转换、清洗、聚合等操作。通过编写 Flink 程序或使用 SQL-like 的 Flink SQL 编写查询语句来完成实时计算任务。

3. 数据写入：将经过处理的数据写入到 Doris 中。Doris 是一个开源的分布式列式存储系统，适合大规模数据的实时分析和查询。您可以使用 Flink 的 JDBC Connector 或自定义 Sink 来将数据写入 Doris 中。

4. 数据模型设计：在 Doris 中设计适当的表结构和数据模型，以满足您的查询需求。这包括定义维度表、事实表和索引等，以支持基于实时数据的复杂分析和查询场景。

5. 数据同步和更新：根据业务需求，定期或实时地将新的数据批量或增量地同步到 Doris 中，以保持数据的实时性和准确性。

6. 监控和调优：对 Flink 和 Doris 的任务进行监控和调优。使用 Flink 的监控仪表板、日志和指标来监控 Flink 任务的状态和性能，并根据需要进行调优。

请注意，以上仅是一种常见的架构思路，具体的实施会因业务需求、数据量、查询场景等而有所不同。在实际应用中，您可能需要进一步细化设计和优化，以满足实时数仓的要求。

2023-07-29 23:50:19

赞同展开评论
芯在这

doris没有starrocks好用。，此回答整理自钉群“【③群】Apache Flink China社区”

2023-07-13 12:07:01

赞同展开评论

Flink + Doris 做实时数仓谁有过经验？怎么做的？

实时计算 Flink

相关文章

热门讨论

热门文章

Flink + Doris 做实时数仓 谁有过经验？ 怎么做的？

实时计算 Flink

相关文章

热门讨论

热门文章

Flink + Doris 做实时数仓谁有过经验？怎么做的？