ClickHouse为什么这么火?

简介: ClickHouse为什么这么火?

这是我的第88篇原创

昨天参加了ClickHouse第二次线上大会,绝大多数时间都是俄罗斯老哥飙着带拐弯的俄罗斯口音英语,有点蒙圈。本来还想偷师,结果水平实在是不行,没听懂。


好在之前就已经了解过一些,要不昨天还白听了。


OLAP届的新秀

数据处理现在还是分为OLTP和OLAP。

OLTP(在线事务处理)优化的方向是高并发、高可用,是精确,是各种增删改查。所以面临和解决的问题都是怎么解决高并发下的增删改查,怎么解决脏读、脏写,保证数据一致性等问题。

OLAP(在线分析处理)的优化方向则是高速数据处理能力、高速读取能力。一般又分为两个优化方向,一个是预先计算好各个维度的数据,存成CUBE,分析的时候直接查询结果就行,这是MOLAP(Multidimensional OLAP,多维在线分析处理),典型代表的是Kylin。一个是结构化存好,然后用尽各种方法优化,分析的时候拼命计算,这是ROLAP(Relational OLAP,关系型在线分析处理),典型代表就是ClickHouse了。


ClickHouse有多火?在大数据领域,这个CK可是比内裤的CK更有吸引力的多!给你两张图感受一下:


注意看最后一个哈,经验不限,20-40K!


ClickHouse的特性

我以前是非常摒弃ROLAP的,因为实在是太慢了。ROLAP都是现算的,以前的套路基本都是生成一个巨复杂的sql扔到数据库里跑,那样能不慢么?


但是这个ClickHouse却不一样,它最显著的特性就是快!这不科学啊!

上图来自于Clickhouse-百分点分享

虽然各种测评都会选择偏向自己的指标,但是这也太悬殊了吧?ClickHouse的创始人yandex公司的同事出来解释过,有点让我失望,并不是一个非常牛的算法或者方案,而是从硬件开始向上一点一点的优化。是不是特别惊讶?


所以ClickHouse另外一个特性就是独立,不需要任何组件的依赖,貌似现在都有往这方面发展的趋势,比如Doris也是不需要依赖的。我们知道Kylin是需要依赖Hbase的。这就会引起各种各样的组件版本问题。想想就头大!


ClickHouse在运行的时候,会用掉服务器的所有资源,不仅仅是内存哦!甚至你查一个简单但是数据,都会吃掉50%以上的CPU!!!


另外,CK还有以下特性:

  • PB级数据处理能力
  • 列式数据存储
  • 优秀的数据压缩
  • 多核并行处理
  • 多服务器分布式处理
  • SQL支持(部分语句有点怪)
  • 向量化引擎
  • 支持实时数据更新
  • 高吞吐写入
  • 近似计算
  • 少依赖,上手非常容易


至于不支持事务处理、不太支持删除、修改等问题,这根本就是不OLAP的需要好么?虽然说数仓也偶然会有改数据的可能,但要支持的那么好干啥?对吧?


ClickHouse的应用和支持

ClickHouse有中文社区,点击访问ClickHouse中文社区。


ClickHouse除了完成ROLAP基础操作之外,还可以结合各种技巧完成各种骚操作。

苏宁用CK结合bitmap做标签圈人和用户画像:

腾讯用CK来做实时、精准的游戏在线实时OLAP分析:

字节用CK搭建数据中台。

相关文章
|
存储 设计模式 分布式计算
全量、增量、流水、拉链、快照、代理键、缓慢变化维...
全量、增量、流水、拉链、快照、代理键、缓慢变化维...
|
存储 分布式计算 负载均衡
大数据集群节点多块磁盘负载不均衡怎么办?
大数据集群节点多块磁盘负载不均衡怎么办?
|
分布式计算 Hadoop 大数据
一口气说完MR、Storm、Spark、SparkStreaming和Flink
一口气说完MR、Storm、Spark、SparkStreaming和Flink
|
7月前
|
存储 SQL 监控
实时数仓和离线数仓还分不清楚?看完就懂了
本文通俗易懂地解析了实时数仓与离线数仓的核心区别,涵盖定义、特点、技术架构与应用场景,助你快速掌握两者差异,理解数据处理的“快慢之道”。
实时数仓和离线数仓还分不清楚?看完就懂了
|
SQL 监控 物联网
ClickHouse在物联网(IoT)中的应用:实时监控与分析
【10月更文挑战第27天】随着物联网(IoT)技术的快速发展,越来越多的设备被连接到互联网上,产生了海量的数据。这些数据不仅包含了设备的状态信息,还包括用户的使用习惯、环境参数等。如何高效地处理和分析这些数据,成为了一个重要的挑战。作为一位数据工程师,我在一个物联网项目中深入使用了ClickHouse,以下是我的经验和思考。
931 0
|
人工智能 缓存 算法
轻创优选视频号爆单系统的开发
电商运营和自动化技术的综合项目,旨在通过高效的内容分发、精准的用户触达和智能化的运营策略,实现商品快速销售和流量变现
|
消息中间件 存储 大数据
简易教程:ClickHouse 的数据备份与恢复(二)
数据备份是IT运营中不可或缺的重要部分。在“大数据”部署(例如分析数据库)中,它们最具挑战性。本文将探讨备份ClickHouse所涉及的管道,并介绍用于自动化过程的Clickhouse备份工具。
1587 0
|
数据管理 BI 定位技术
什么是数据地图、血缘分析和数据资产?
什么是数据地图、血缘分析和数据资产?
|
缓存 Cloud Native 区块链
重塑链上数据索引,Chainbase 云原生 Subgraph 解析
Subgraph 是 The Graph 去中心化应用索引协议的具体实现, 能为各个智能合约创建索引引擎,提供 dataset 数据集供开发者快速查询使用。目前,Chainbase 正式上线并托管的核心 dataset subgraph 数量已经超过 100+。
1060 0
重塑链上数据索引,Chainbase 云原生 Subgraph 解析
|
SQL HIVE 索引
Hive【Hive(五)函数-高级聚合函数、炸裂函数】
Hive【Hive(五)函数-高级聚合函数、炸裂函数】

热门文章

最新文章