阿里云 E-MapReduce ClickHouse 操作指南 01期 — ClickHouse 概述

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。

阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。


本系列文章将从以下几个方面详细介绍 EMR ClickHouse 的操作指南:

  • ClickHouse 概述(本文)
  • 快速入门
  • ClickHouse 运维
  • 数据导入
  • 常见问题

template (2).png

EMR ClickHouse 操作指南 — 概述

阿里云 EMR ClickHouse 提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。


EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容缩容和监控告警等云上产品功能。并且在开源的基础上优化了 ClickHouse 的读写性能,提升了 ClickHouse 与 EMR 其他组件快速集成的能力。


特性

特性

描述

列式存储 相较于行式存储,列式存储在查询性能上更优。同时列式存储的数据压缩比更高,更加节省存储空间。
MPP架构

每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。查询性能好,易于扩展。

向量化引擎:为了高效的使用CPU,数据不仅仅按列存储,同时还按向量(列的一部分)进行处理,这样可以更加高效地使用CPU。

支持SQL ClickHouse支持一种基于SQL的声明式查询语言,它在许多情况下与ANSI SQL标准相同。支持的查询GROUP BY、ORDER BY、FROM、JOIN、IN以及非相关子查询。
实时的数据更新 ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找,数据总是以增量的方式有序的存储在MergeTree中。

近实时数据更新, Clickhouse支持近实时的数据插入、指标聚合以及索引创建。

支持索引 按照主键对数据进行排序,ClickHouse可以在几十毫秒以内完成对数据特定值或范围的查找。

典型应用

  • 用户行为分析
    行为分析系统的表可以制作成一张大的宽表,每个表包含大量的列,可以超过一千列。JOIN的形式相对少一点,可以实现路径分析、漏斗分析和路径转化等功能。


  • 流量&监控
    可以将系统和应用监控指标通过流式计算引擎Flink或Spark streaming将监控数据清洗处理以后,实时写入ClickHouse,然后结合Grafana进行可视化展示。


  • 实时BI报表
    根据业务需求,可以实时制作一些及时产出的查询灵活的BI报表,实现秒级查询,绝大多数查询能够实时反馈。BI报表包括订单分析、营销效果分析和大促活动分析。


  • 用户画像
    可以将各种用户特征进行数据加工,制作成包含全部用户的一张或多张用户特征表,提供灵活的用户画像分析、支撑广告和圈人等业务需求。


 说明 不合适的场景:

  • 没有完整的事务支持。
  • 缺少高频率,低延迟的修改或删除已存在数据的能力。
  • 仅能用于批量删除或修改数据。稀疏索引使得 ClickHouse 不适合通过其键检索单行的点查询。


后续

您已经了解了 ClickHouse 概述,本系列还包括其他内容:

  • 快速入门
  • ClickHouse 运维
  • 数据导入
  • 常见问题




获取更详细的 EMR ClickHouse 相关信息,可至产品文档页查看:

https://help.aliyun.com/document_detail/212195.html


扫描下方二维码加入 EMR 相关产品钉钉交流群一起参与讨论吧!

lALPD26eQMAeAf_NAd7NAvs_763_478.png

相关文章
|
8月前
|
存储 NoSQL 关系型数据库
客户说|长桥科技引入阿里云ClickHouse重构行情分析业务,性能提升10倍
客户说|长桥科技引入阿里云ClickHouse重构行情分析业务,性能提升10倍
190 0
|
9月前
|
存储 NoSQL 关系型数据库
|
10月前
|
存储 数据采集 监控
阿里云DTS踩坑经验分享系列|SLS同步至ClickHouse集群
作为强大的日志服务引擎,SLS 积累了用户海量的数据。为了实现数据的自由流通,DTS 开发了以 SLS 为源的数据同步插件。目前,该插件已经支持将数据从 SLS 同步到 ClickHouse。通过这条高效的同步链路,客户不仅能够利用 SLS 卓越的数据采集和处理能力,还能够充分发挥 ClickHouse 在数据分析和查询性能方面的优势,帮助企业显著提高数据查询速度,同时有效降低存储成本,从而在数据驱动决策和资源优化配置上取得更大成效。
359 9
|
12月前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
12月前
|
SQL 存储 OLAP
大数据-133 - ClickHouse 基础概述 全面了解
大数据-133 - ClickHouse 基础概述 全面了解
285 0
|
存储 大数据 关系型数据库
从 ClickHouse 到阿里云数据库 SelectDB 内核 Apache Doris:快成物流的数智化货运应用实践
目前已经部署在 2 套生产集群,存储数据总量达百亿规模,覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。
474 0
|
存储 Cloud Native 大数据
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
全面升级为云原生架构,支持云原生按需弹性Serverless能力,解决了长期困扰用户的集群扩展效率和平滑性问题。
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
|
存储 容灾 Cloud Native
阿里云ClickHouse企业版正式商业化,为开发者提供容灾性更好、性价比更高的实时数仓
2024年4月23日,阿里云联合 ClickHouse Inc. 成功举办了企业版商业化发布会。阿里云 ClickHouse 企业版是阿里云和 ClickHouse 原厂 ClickHouse. Inc 独家合作的存算分离的云原生版本,支持资源按需弹性 Serverless,帮助企业降低成本的同时,为企业带来更多商业价值。
857 1
|
3月前
|
存储 监控 分布式数据库
ClickHouse分布式数据库动态伸缩(弹性扩缩容)的实现
实现ClickHouse数据库的动态伸缩需要持续的维护和精细的操作。从集群配置到数据迁移,再到监控和自动化,每一步都要仔细管理以确保服务的可靠性和性能。这些活动可以显著提高应用的响应性和成本效率,帮助业务根据实际需求灵活调整资源分配。
198 10
|
5月前
|
关系型数据库 MySQL 定位技术
MySQL与Clickhouse数据库:探讨日期和时间的加法运算。
这一次的冒险就到这儿,期待你的再次加入,我们一起在数据库的世界中找寻下一个宝藏。
214 9

热门文章

最新文章

相关产品

  • 开源大数据平台 E-MapReduce
  • 推荐镜像

    更多