开发者社区> 问答> 正文

在实时数仓中,数据是如何进行分层的?

在实时数仓中,数据是如何进行分层的?

展开
收起
真的很搞笑 2024-07-22 22:36:59 40 0
2 条回答
写回答
取消 提交回答
  • "在实时数仓中,数据主要按照以下四层进行分层:

    ODS层:原始数据,存放于Kafka/Pulsar等消息队列中。
    DWD层:用户行为明细数据,经过Flink任务聚合后保存到Kafka/Pulsar中。
    DWS层:多维明细数据,通过流维表JOIN产生,并输出到ClickHouse表中。
    ADS层:汇总数据,根据业务需求从不同维度对ClickHouse中的多维明细数据进行汇总。
    "

    2024-07-23 09:50:46
    赞同 展开评论 打赏
  • 数据仓库中的数据分层是一种重要的数据组织方式,其目的是为了在管理数据时能够对数据有一个更加清晰的掌控。以下是数据仓库中的数据分层详解:

    • 原始数据层(Raw Data Layer):这是数仓中最底层的层级,用于存储从各个数据源获取的原始数据。这些数据通常是未经处理和清洗的,包括来自数据库、日志文件、传感器等的数据。原始数据层的目的是保留数据的完整性和可追溯性,以备后续的数据处理和分析。
    • 数据清洗层(Data Cleansing Layer):该层对原始数据进行清洗、去重、转换和标准化等处理。在这一层中,数据质量和一致性是关键考虑因素。清洗后的数据可以更好地支持后续的数据分析和建模。
    • 集成层(Integration Layer):这一层是将来自不同数据源的数据进行整合和集成的层级。数据被转换为一致的格式和结构,以便于跨数据源的查询和分析。集成层通常包括数据仓库和数据集市等组件,数据被组织为维度和事实表的结构,以支持多维分析和报告。

    此外,数据仓库中还有更细化的分层,例如数据明细层(DWD)、数据中间层(DWM)和数据服务层(DWS)等。这些分层使得数据仓库的设计更加复杂和精细,能够更好地满足不同的数据需求。
    image.png

    ——参考链接

    2024-07-23 08:05:01
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
基于云原生数据仓库AnalyticDB PG的最佳实践 立即下载
新氧云原生全栈数仓最佳实践 立即下载
离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进 立即下载