阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。
本系列文章将从以下几个方面详细介绍 EMR ClickHouse 的操作指南:
- ClickHouse 概述(本文)
- 快速入门
- ClickHouse 运维
- 数据导入
- 常见问题
EMR ClickHouse 操作指南 — 概述
阿里云 EMR ClickHouse 提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。
EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容缩容和监控告警等云上产品功能。并且在开源的基础上优化了 ClickHouse 的读写性能,提升了 ClickHouse 与 EMR 其他组件快速集成的能力。
特性
特性 |
描述 |
列式存储 | 相较于行式存储,列式存储在查询性能上更优。同时列式存储的数据压缩比更高,更加节省存储空间。 |
MPP架构 | 每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。查询性能好,易于扩展。 向量化引擎:为了高效的使用CPU,数据不仅仅按列存储,同时还按向量(列的一部分)进行处理,这样可以更加高效地使用CPU。 |
支持SQL | ClickHouse支持一种基于SQL的声明式查询语言,它在许多情况下与ANSI SQL标准相同。支持的查询GROUP BY、ORDER BY、FROM、JOIN、IN以及非相关子查询。 |
实时的数据更新 | ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找,数据总是以增量的方式有序的存储在MergeTree中。 近实时数据更新, Clickhouse支持近实时的数据插入、指标聚合以及索引创建。 |
支持索引 | 按照主键对数据进行排序,ClickHouse可以在几十毫秒以内完成对数据特定值或范围的查找。 |
典型应用
- 用户行为分析
行为分析系统的表可以制作成一张大的宽表,每个表包含大量的列,可以超过一千列。JOIN的形式相对少一点,可以实现路径分析、漏斗分析和路径转化等功能。
- 流量&监控
可以将系统和应用监控指标通过流式计算引擎Flink或Spark streaming将监控数据清洗处理以后,实时写入ClickHouse,然后结合Grafana进行可视化展示。
- 实时BI报表
根据业务需求,可以实时制作一些及时产出的查询灵活的BI报表,实现秒级查询,绝大多数查询能够实时反馈。BI报表包括订单分析、营销效果分析和大促活动分析。
- 用户画像
可以将各种用户特征进行数据加工,制作成包含全部用户的一张或多张用户特征表,提供灵活的用户画像分析、支撑广告和圈人等业务需求。
说明 不合适的场景:
- 没有完整的事务支持。
- 缺少高频率,低延迟的修改或删除已存在数据的能力。
- 仅能用于批量删除或修改数据。稀疏索引使得 ClickHouse 不适合通过其键检索单行的点查询。
后续
您已经了解了 ClickHouse 概述,本系列还包括其他内容:
- 快速入门
- ClickHouse 运维
- 数据导入
- 常见问题
获取更详细的 EMR ClickHouse 相关信息,可至产品文档页查看:
https://help.aliyun.com/document_detail/212195.html
扫描下方二维码加入 EMR 相关产品钉钉交流群一起参与讨论吧!