认识一下 ClickHouse

简介: 认识一下 ClickHouseClickHouse 画像速览ClickHouse 是面向列的数据库管理系统,

认识一下 ClickHouse

ClickHouse 画像速览

ClickHouse 是面向列的数据库管理系统,主要应用于OLAP业务范畴,用于在线分析处理查询,可以使用SQL查询实时生成数据分析结果。列式存储的好处就是当我们对列进行聚合操作时,效率会大大优于行式存储,而且由于每一列的类型都是相同的,所以对于数据更容易进行压缩,并且可以对不同类型的列选择更合适的压缩算法,以来节约磁盘资源,以及磁盘IO。


随着大数据时代的到来,对于OLAP,列存储模式或者说nosql模式比传统意义的行存储模式可能更具优势。


注点:

  • OLTP即联机事务处理,就是我们经常说的关系数据库,增删查改就是我们经常应用的东西,这是数据库的基础;主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务,实时性要求高。


  • OLAP即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程序之后而对历史数据的加工与分析,读取较多,更新较少,实时性要求不是很高,,比如最常见的应用就是天级更新数据,然后出对应的数据报表,数据量大。


ClickHouse 使用场景

  • 数据量较大。
  • ck的请求大多数都是读请求。
  • 宽表。
  • 查询相对较少。
  • 对于简单的查询,允许50毫秒的延迟。
  • 列中的数据相对较小,多为数字和短字符串。
  • 在处理单个查询时需要高吞吐量(单服务器每秒数十亿行)。
  • 事务不是必须的。
  • 对数据一致性要求低。
  • 每个查询都有一个大表。
  • 查询结果明显小于源数据。


目录
相关文章
|
13天前
|
存储 监控 物联网
【Clickhouse 探秘】Clickhouse 投影技术到底能做什么?怎么实现的?
ClickHouse 投影是一种数据结构,用于提高特定查询模式下的性能。通过预处理数据,投影可以显著减少查询的执行时间,特别是在复杂的聚合和排序查询中。投影自动与基础表数据保持同步,支持多投影,适用于实时分析、用户行为分析、日志分析等场景。虽然投影能显著提升查询性能,但也会增加存储开销和写入性能的影响。
33 0
|
6月前
|
SQL XML JSON
Hive函数全解——思维导图 + 七种函数类型
Hive函数全解——思维导图 + 七种函数类型
134 2
Hive函数全解——思维导图 + 七种函数类型
|
6月前
|
SQL 运维 监控
面经:Presto/Trino高性能SQL查询引擎解析
【4月更文挑战第10天】本文深入探讨了大数据查询引擎Trino(现称Trino)的核心特性与应用场景,适合面试准备。重点包括:Trino的分布式架构(Coordinator与Worker节点)、连接器与数据源交互、查询优化(CBO、动态过滤)及性能调优、容错与运维实践。通过实例代码展示如何解释查询计划、创建自定义连接器以及查看查询的I/O预期。理解这些知识点将有助于在面试中脱颖而出,并在实际工作中高效处理数据分析任务。
496 12
|
6月前
|
SQL Cloud Native 架构师
深入浅出Presto:大数据查询引擎的原理与应用
【4月更文挑战第7天】Presto是高性能的分布式SQL查询引擎,专为大规模数据交互式分析设计。它采用分离式架构,内存计算和动态规划优化查询,支持跨源查询、交互式查询和ANSI SQL兼容性。应用于大数据分析、实时数据湖查询和云原生部署。Presto的灵活性和效率使其在大数据处理领域备受推崇,适合分析师、数据科学家和IT架构师使用。未来将在博客中分享更多实践和案例。
878 1
|
6月前
|
SQL 分布式计算 关系型数据库
Hive与传统关系型数据库有什么区别?请举例说明。
Hive与传统关系型数据库有什么区别?请举例说明。
251 0
|
6月前
|
存储 大数据 OLAP
一文快速搞懂Kudu到底是什么
一文快速搞懂Kudu到底是什么
1367 0
|
大数据 Linux 网络安全
|
存储 搜索推荐 关系型数据库
55.【clickhouse】ClickHouse从入门到放弃-概念场景
【clickhouse】ClickHouse从入门到放弃-概念场景
55.【clickhouse】ClickHouse从入门到放弃-概念场景
|
SQL 存储 缓存
开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化
开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化
241 0
|
SQL 存储 分布式计算
Hive概论、架构和基本操作
Apache Spark是一个快速的,多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行计算,同时Spark提供SQL支持。Hive是建立在Hadoop上的数据仓库基础架构,它提供了一系列的工具,可以存储、查询、分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL查询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行。它将计算分为两个阶段,分别为Map和Reduce。
231 0
下一篇
无影云桌面