阿里云 E-MapReduce ClickHouse 操作指南 01期 — ClickHouse 概述

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。
+关注继续查看

阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。


本系列文章将从以下几个方面详细介绍 EMR ClickHouse 的操作指南:

  • ClickHouse 概述 (本文)
  • 快速入门
  • ClickHouse 运维
  • 数据导入
  • 常见问题

template (2).png

EMR ClickHouse 操作指南 — 概述

阿里云 EMR ClickHouse 提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。


EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容缩容和监控告警等云上产品功能。并且在开源的基础上优化了 ClickHouse 的读写性能,提升了 ClickHouse 与 EMR 其他组件快速集成的能力。


特性

特性

描述

列式存储相较于行式存储,列式存储在查询性能上更优。同时列式存储的数据压缩比更高,更加节省存储空间。
MPP架构

每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。查询性能好,易于扩展。

向量化引擎:为了高效的使用CPU,数据不仅仅按列存储,同时还按向量(列的一部分)进行处理,这样可以更加高效地使用CPU。

支持SQLClickHouse支持一种基于SQL的声明式查询语言,它在许多情况下与ANSI SQL标准相同。支持的查询GROUP BY、ORDER BY、FROM、JOIN、IN以及非相关子查询。
实时的数据更新ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找,数据总是以增量的方式有序的存储在MergeTree中。

近实时数据更新, Clickhouse支持近实时的数据插入、指标聚合以及索引创建。

支持索引按照主键对数据进行排序,ClickHouse可以在几十毫秒以内完成对数据特定值或范围的查找。

典型应用

  • 用户行为分析
    行为分析系统的表可以制作成一张大的宽表,每个表包含大量的列,可以超过一千列。JOIN的形式相对少一点,可以实现路径分析、漏斗分析和路径转化等功能。


  • 流量&监控
    可以将系统和应用监控指标通过流式计算引擎Flink或Spark streaming将监控数据清洗处理以后,实时写入ClickHouse,然后结合Grafana进行可视化展示。


  • 实时BI报表
    根据业务需求,可以实时制作一些及时产出的查询灵活的BI报表,实现秒级查询,绝大多数查询能够实时反馈。BI报表包括订单分析、营销效果分析和大促活动分析。


  • 用户画像
    可以将各种用户特征进行数据加工,制作成包含全部用户的一张或多张用户特征表,提供灵活的用户画像分析、支撑广告和圈人等业务需求。


 说明 不合适的场景:

    • 没有完整的事务支持。
    • 缺少高频率,低延迟的修改或删除已存在数据的能力。
    • 仅能用于批量删除或修改数据。稀疏索引使得 ClickHouse 不适合通过其键检索单行的点查询。


后续

您已经了解了 ClickHouse 概述,本系列还包括其他内容:

  • 快速入门
  • ClickHouse 运维
  • 数据导入
  • 常见问题




获取更详细的 EMR ClickHouse 相关信息,可至产品文档页查看:

https://help.aliyun.com/document_detail/212195.html


扫描下方二维码加入 EMR 相关产品钉钉交流群一起参与讨论吧!

lALPD26eQMAeAf_NAd7NAvs_763_478.png

相关实践学习
EMR数据湖开发治理之用户画像分析
通过本场景,你可以基于E-MapReduce + DLF + OSS-HDFS + DataWorks在云上快速体验完整的数据湖开发治理方案。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
24天前
|
存储 SQL 缓存
【云栖2023】李钰:阿里云 E-MapReduce 全面开启 Serverless 时代
本文根据 2023 云栖大会,阿里云资深技术专家、阿里云开源大数据平台EMR负责人李钰演讲实录整理而成。
136 0
|
28天前
|
SQL
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
在阿里云的E-MapReduce中,对数组类型进行聚合操作需要使用特定的函数
20 2
|
3月前
|
存储 缓存 Cloud Native
阿里云 ClickHouse 企业版首发邀测&云原生 ClickHouse 技术揭秘
云数据库 ClickHouse 企业版是阿里云和 ClickHouse, Inc 战略合作打造的云原生ClickHouse 产品。企业版推出专属 SharedMergeTree 云原生引擎,支持存算分离,Serverless 秒级实时弹性,集群吞吐和查询效率线性扩展及 Lightweight update 实时更新能力。本文将详细揭秘 SharedMergeTree 实现机制,实时弹性扩展实现原理,lightweight update 技术实现原理,同时对企业版和开源版进行详细的性能测试对比。
|
3月前
|
存储 缓存 Cloud Native
阿里云 ClickHouse 企业版云原生 ClickHouse 技术揭秘
云数据库 ClickHouse 企业版是阿里云和 ClickHouse, Inc 战略合作打造的云原生ClickHouse 产品。企业版推出专属 SharedMergeTree 云原生引擎,支持存算分离,Serverless 秒级实时弹性,集群吞吐和查询效率线性扩展及 Lightweight update 实时更新能力。本文将详细揭秘 SharedMergeTree 实现机制,实时弹性扩展实现原理,lightweight update 技术实现原理,同时对企业版和开源版进行详细的性能测试对比。
1177 1
阿里云 ClickHouse 企业版云原生 ClickHouse 技术揭秘
|
3月前
|
数据库 数据安全/隐私保护
阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案
社区开源Ldap密码不安全问题解决方案
|
3月前
|
分布式计算 Java API
阿里云E-MapReduce集群不同计算引擎sleep task使用笔记
需求:日常在E-MapReduce集群中进行相关测试,验证一些切换或变更是否会影响业务的运行导致任务failed。所以需要在测试集群中运行指定资源数(vcore及memory)或者指定运行时间的任务。 目前用到MapReduce和spark任务两种,其余的持续更新补充中……
|
3月前
|
SQL 分布式计算 测试技术
从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris:有赞业务场景下性能测试与迁移验证
从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris 迁移实践:有赞查询提速近 10 倍,OLAP 分析更实时高效!
从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris:有赞业务场景下性能测试与迁移验证
|
3月前
|
存储 弹性计算 资源调度
阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性
背景:阿里云E-MapReduce集群(简称EMR集群)部分节点需要下线迁移,但集群资源常年跑满,诉求是节点下线迁移过程中不影响任一任务执行。 本次方案基于Yarn Node Labels的特性进行资源隔离后下线。 下期对官网Graceful Decommission of YARN Nodes的方案进行验证,参考:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html。
|
7月前
|
数据库
《阿里云产品手册2022-2023 版》——云数据库 ClickHouse
《阿里云产品手册2022-2023 版》——云数据库 ClickHouse
|
7月前
|
大数据
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
相关产品
开源大数据平台 E-MapReduce
推荐文章
更多