开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink + Doris 做实时数仓 谁有过经验? 怎么做的?

Flink + Doris 做实时数仓 谁有过经验? 怎么做的?

展开
收起
真的很搞笑 2023-07-13 10:32:46 217 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    Flink + Doris 是一种常见的实时数仓解决方案,可以用于实时数据处理和分析。下面是一些关于如何使用 Flink + Doris 进行实时数仓的建议:

    数据采集:首先需要对数据进行采集,可以使用 Flink 的 DataStream API 或者 Table API 进行实时数据处理,将数据转换为流式数据。同时,可以使用 Flink 的 Connector 或者 Kafka、RocketMQ 等消息中间件进行数据的接收和发送。

    数据处理:在 Flink 中,可以使用各种算子对数据进行实时处理和转换,例如 Map、FlatMap、Filter、KeyBy、Window、Join 等。根据实际需求,选择合适的算子进行数据处理。同时,需要注意算子的并行度、状态管理等问题,以确保任务的性能和可靠性。

    数据存储:在 Flink 中,可以使用不同的状态后端和存储后端来存储数据,例如 RocksDB、HDFS、Kudu、Doris 等。其中,Doris 是一种分布式列存储数据库,可以用于实时数据存储和分析。可以使用 Flink 的 Doris Connector 将数据写入 Doris 数据库中,实现实时数据存储和查询。

    数据可视化:最后,需要将数据可视化,以便用户进行数据分析和决策。可以使用各种 BI 工具进行数据可视化,例如 Tableau、Power BI、Superset 等。

    2023-07-30 09:39:12
    赞同 展开评论 打赏
  • 结合 Flink 和 Doris(也称为Palo)构建实时数仓是一种常见的架构,可以实现实时数据处理和分析。以下是一些常见的步骤和思路:

    1. 数据源接入:首先,您需要将数据源连接到 Flink 中,例如使用 Flink 提供的 Kafka Connector 将数据从 Kafka 主题读取到 Flink 中。根据您的数据源类型,可能需要选择适当的 Flink Connector 或自定义源。

    2. 实时计算:使用 Flink 进行实时计算任务,对输入的数据进行转换、清洗、聚合等操作。通过编写 Flink 程序或使用 SQL-like 的 Flink SQL 编写查询语句来完成实时计算任务。

    3. 数据写入:将经过处理的数据写入到 Doris 中。Doris 是一个开源的分布式列式存储系统,适合大规模数据的实时分析和查询。您可以使用 Flink 的 JDBC Connector 或自定义 Sink 来将数据写入 Doris 中。

    4. 数据模型设计:在 Doris 中设计适当的表结构和数据模型,以满足您的查询需求。这包括定义维度表、事实表和索引等,以支持基于实时数据的复杂分析和查询场景。

    5. 数据同步和更新:根据业务需求,定期或实时地将新的数据批量或增量地同步到 Doris 中,以保持数据的实时性和准确性。

    6. 监控和调优:对 Flink 和 Doris 的任务进行监控和调优。使用 Flink 的监控仪表板、日志和指标来监控 Flink 任务的状态和性能,并根据需要进行调优。

    请注意,以上仅是一种常见的架构思路,具体的实施会因业务需求、数据量、查询场景等而有所不同。在实际应用中,您可能需要进一步细化设计和优化,以满足实时数仓的要求。

    2023-07-29 23:50:19
    赞同 展开评论 打赏
  • doris没有starrocks好用。,此回答整理自钉群“【③群】Apache Flink China社区”

    2023-07-13 12:07:01
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    实时数仓Workshop(广州站)- 李佳林 立即下载
    阿里云实时数仓Hologres技术揭秘2.0 立即下载
    实时数仓Hologres技术实战一本通2.0版(下) 立即下载