About Druid - A Real-time Analytical Data Store

简介:
Druid是一个为流式数据设计的实时分析数据存储系统,包含4个组件,采用了冷热分离的结构:
Real-time Nodes
Historical Nodes
Broker Nodes
Coordinator Nodes
About Druid - A Real-time Analytical Data Store - 德哥@Digoal - PostgreSQL research

infoq里有一篇介绍druid的文章。

Druid is similiar to C-Store [38] and LazyBase [8] in that it has
two subsystems, a read-optimized subsystem in the historical nodes
and a write-optimized subsystem in real-time nodes. Real-time nodes
are designed to ingest a high volume of append heavy data, and do
not support data updates. Unlike the two aforementioned systems,
Druid is meant for OLAP transactions and not OLTP transactions.
Druid’s low latency data ingestion features share some similarities
with Trident/Storm [27] and Spark Streaming [45], however,
both systems are focused on stream processing whereas Druid is
focused on ingestion and aggregation. Stream processors are great
complements to Druid as a means of pre-processing the data before
the data enters Druid.
There are a class of systems that specialize in queries on top of
cluster computing frameworks. Shark [13] is such a system for
queries on top of Spark, and Cloudera’s Impala [9] is another system
focused on optimizing query performance on top of HDFS. Druid
historical nodes download data locally and only work with native
Druid indexes. We believe this setup allows for faster query latencies.
Druid leverages a unique combination of algorithms in its architecture.
Although we believe no other data store has the same set
of functionality as Druid, some of Druid’s optimization techniques
such as using inverted indices to perform fast filters are also used in
other data stores [26].

[参考]
目录
相关文章
|
SQL 关系型数据库 RDS
|
存储 分布式计算 Apache
构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文将在阿里云EMR 上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,然后分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
59905 9
构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比
|
SQL 消息中间件 Kafka
流数据湖平台Apache Paimon(二)集成 Flink 引擎
流数据湖平台Apache Paimon(二)集成 Flink 引擎
1395 0
|
人工智能 监控 算法
【AI 现况分析】AI 应用导致的隐私问题分析
【1月更文挑战第27天】【AI 现况分析】AI 应用导致的隐私问题分析
|
11月前
|
Kubernetes Cloud Native Docker
云原生入门:Kubernetes和Docker的协同之旅
【10月更文挑战第4天】在这篇文章中,我们将通过一次虚拟的旅行来探索云原生技术的核心——Kubernetes和Docker。就像乘坐一艘由Docker驱动的小船启航,随着波浪(代码示例)起伏,最终抵达由Kubernetes指挥的宏伟舰队。这不仅是一段技术上的旅程,也是理解现代云架构如何支撑数字世界的冒险。让我们扬帆起航,一探究竟!
|
SQL 存储 JSON
Flink+Paimon+Hologres 构建实时湖仓数据分析
本文整理自阿里云高级专家喻良,在 Flink Forward Asia 2023 主会场的分享。
72413 8
Flink+Paimon+Hologres 构建实时湖仓数据分析
|
存储 SQL Java
王日宇:基于 StarRocks 和 Paimon 打造湖仓分析新范式
本文根据 StarRocks Summit 2023 演讲实录整理而成,主要分享了基于 StarRocks 和 Paimon 打造湖仓分析方案及背后的技术原来和未来规划。
2146 1
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之程序初始化mysql没有完成就报错如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
437 58
|
测试技术
KT决策法
KT决策法
336 0
|
消息中间件 存储 Apache
Apache Paimon 表模式最佳实践
Apache Paimon 表模式最佳实践
3634 57

热门文章

最新文章