备案控制台

开发者社区大数据文章正文

基于 Flink 的实时数仓建设实践

2023-06-06 530

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 基于 Flink 的实时数仓建设实践

小米目前的技术架构，在存储侧我们主要应用数据湖 Iceberg 和自研消息队列 Talos，计算层主要应用 Flink 和 Spark，他们统一运行在 Yarn 上，统一通过 Metacat 获取元数据信息，并通过 Ranger 来进行统一的鉴权服务。我们内部使用 Spark 和 Presto 来支撑 OLAP 查询场景，并通过 Kyuubi 来实现路由。

在实时数仓场景中，我们选择 Flink 作为计算底座，Hive、Talos、Iceberg 作为存储底座，其中，消息队列 Talos 作为传统 Lambda 架构的通用选择，在我们内部占比较大且很稳定，Iceberg 作为一款优秀的湖存储，兼具时效性和低成本，其使用占比也在逐步提升，使用到 Iceberg 的 Flink 作业在总占比中已经达到近 50%。
在引入数据湖前，针对日志埋点这样的聚合计算场景，业务会使用离线计算来搭建链路，采集模块会将日志或埋点数据统一收集到消息队列中，Flink 消费消息队列中的数据实时写入 ODS 层 Hive 表，下游的计算则采用 Spark 或者 Hive 按小时或天进行清洗、聚合。显然，这样的链路处理延迟和成本都较高，这些离线作业往往都在凌晨进行调度，给整个集群带来较大压力。

文章标签：

实时数仓 Hologres

实时计算 Flink版

消息中间件

流计算

分布式计算

SQL

OLAP

资源调度

Spark

HIVE

调度

存储

关键词：

实时数仓 Hologres flink

flink实时数仓 Hologres

实时计算 Flink版实践

实时计算 Flink版实时数仓

实时计算 Flink版数仓

相关实践学习

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

本场景采用阿里云人工智能平台PAI、Hologres向量计算和计算巢，搭建企业级AI问答知识库。通过本教程的操作，5分钟即可拉起大模型（PAI）、向量计算（Hologres）与WebUI资源，可直接进行对话问答。

aliyun0470050202-26807

目录

相关文章

三分钟热度的鱼

|

13天前

|

SQL 关系型数据库 MySQL

实时计算 Flink版产品使用合集之如何将Hologres字段转换为小写

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

27 1 1

小王老师呀

|

10天前

|

SQL 数据采集监控

14个Flink SQL性能优化实践分享

本文档详细列举了Apache Flink SQL的性能调优策略。主要关注点包括：增加数据源读取并行度、优化状态管理（如使用RocksDB状态后端并设置清理策略）、调整窗口操作以减少延迟、避免类型转换和不合理的JOIN操作、使用广播JOIN、注意SQL查询复杂度、控制并发度和资源调度、自定义源码实现、执行计划分析、异常检测与恢复、监控报警、数据预处理与清洗、利用高级特性（如容器化部署和UDF）以及数据压缩与序列化。此外，文档还强调了任务并行化、网络传输优化、系统配置调优、数据倾斜处理和任务调度策略。通过这些方法，可以有效解决性能问题，提升Flink SQL的运行效率。

小王老师呀

30 5 5

三分钟热度的鱼

|

13天前

|

关系型数据库 MySQL Java

实时计算 Flink版产品使用合集之同步MySQL数据到Hologres时，配置线程池的大小该考虑哪些

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

26 1 1

三分钟热度的鱼

|

13天前

|

分布式计算数据处理 MaxCompute

实时计算 Flink版产品使用合集之进行实时处理时，是否需要将所有数据导入到Hologres

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

27 1 1

长梦

|

14天前

|

SQL 资源调度监控

Flink SQL性能优化实践

Apache Flink流处理性能优化指南：探索数据源读取并行度、状态管理、窗口操作的优化策略，包括设置默认并行度、使用RocksDB状态后端、调整窗口大小。调优方法涉及数据源分区、JOIN条件优化、使用Broadcast JOIN。注意SQL复杂度、并发控制与资源调度，如启用动态资源分配。源码层面优化自定义Source和Sink，利用执行计划分析性能瓶颈。异常检测与恢复通过启用检查点，监控任务性能。预处理数据、使用DISTINCT去重，结合UDF提高效率。选择高效序列化框架和启用数据压缩，优化网络传输和系统配置。处理数据倾斜，均衡数据分布，动态调整资源和任务优先级，以提升整体性能。

长梦

55 2 2

听白

|

17天前

|

SQL 运维关系型数据库

Flink+Hologres搭建实时数仓

该方案利用Flink和Hologres构建实时数仓，解决传统数仓中间层查询困难、数据不可复用和架构冗余的问题。Flink负责数据源接入和加工，将数据写入Hologres的ODS、DWD和DWS层。Hologres支持高效更新和查询，各层数据可直接服务，简化架构，提高效率。方案具备高性能（Flink与Hologres深度集成，支持实时写入查询）、高可用（主从实例确保服务稳定）和低运维（全链路Flink SQL，减少运维成本）优势。适用于实时报表、推荐系统和业务监控等场景。

听白

40 4 4

芯在这

|

18天前

|

Oracle 关系型数据库 MySQL

实时计算 Flink版操作报错合集之用CTAS从mysql同步数据到hologres，改了字段长度，报错提示需要全部重新同步如何解决

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

芯在这

60 8 8

芯在这

|

18天前

|

安全 Java 数据处理

实时计算 Flink版操作报错合集之hologres里报错：找不到字段如何解决

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

芯在这

30 4 4

开发者小助理

|

SQL Kubernetes Cloud Native

开发者社区精选直播合集（三十六）| Flink实践合集

Flink 作为业界公认为最好的流计算引擎，不仅仅局限于做流处理，而是一套兼具流、批、机器学习等多种计算功能的大数据引擎，以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级，并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。

开发者小助理

584 0 0

开发者社区精选直播合集（三十六）| Flink实践合集

三分钟热度的鱼

|

13天前

|

消息中间件 Kafka 分布式数据库

实时计算 Flink版产品使用合集之如何批量读取Kafka数据

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

190 1 1

热门文章

最新文章

Apache Flink 零基础入门（一）：基础概念解析

Flink: 实时规则引擎助力新零售发展

Flink RocksDB 状态后端参数调优实践

Apache Flink 进阶（三）：Checkpoint 原理解析与应用实践

PostgreSQL 无会话、有会话模式 - 客服平均响应速度（RT）实时计算实践(窗口查询\流计算)

伴鱼：借助 Flink 完成机器学习特征系统的升级

Apache Flink 1.10.0 发布 | 云原生生态周报 Vol. 38

Flink Table Store 典型应用场景

基于 Flink x TiDB，智慧芽打造实时分析新方案

高能预警！Apache Flink Meetup · 上海站返场啦

在使用Hologres时，访问外部表的操作同样会产生费用

遇到Hologres慢查询列表的导出功能出现问题，无法下载查询结果的情况

在Hologres的HoloWeb控制台中，您可以查看并分析历史查询语句

Doris实时数仓

友盟+Hologres：千亿级多维分析平台建设实践

flink问题之做实时数仓sql保证分topic区有序如何解决

飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践

电子好书发您分享《实时数仓Hologres技术实战一本通2.0版（上）》

电子好书发您分享《实时数仓Hologres技术实战一本通2.0版（下）》

PAI+Hologres基于大模型搭建企业级知识库

相关课程

更多

实时数仓入门课程

阿里云实时数仓实战 - 项目介绍及架构设计

阿里云实时数仓实战 - 数据生成及采集

阿里云实时数仓实战 - 用户行为数仓搭建

阿里云实时数仓实战 - 作业调度与数据可视化

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

相关电子书

更多

实时数仓Workshop（广州站）- 李佳林

阿里云实时数仓Hologres技术揭秘2.0

实时数仓Hologres技术实战一本通2.0版（下）

相关实验场景

更多

基于DTS构建一站式实时数据服务

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Tair搭建实时监控大屏

AnalyticDB MySQL游戏行业数据分析实践

AnalyticDB MySQL海量数据秒级分析体验

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考