使用ClickHouse集群的7个基本技巧

简介: 使用ClickHouse集群的7个基本技巧

ClickHouse 是速度最快、资源效率最高的 OLAP 数据库,可以在毫秒内查询数十亿行,并受到数千家公司的实时分析信赖。

   这里有七个技巧,可以帮助你启动一个生产的ClickHouse集群,避免最常见的错误。

提示 1:使用多个副本

   在测试ClickHouse时,很自然地部署了一个只有一台主机的配置,因为您可能不想使用额外的资源或承担不必要的费用。

   这在开发或测试环境中没有错,但如果您只想在生产环境中使用一台主机,这可能会付出代价。如果发生故障,并且只有一个副本和一台主机,则有丢失所有数据的风险。

   对于生产负载,应使用多个主机并在它们之间复制数据。它不仅可以确保在主机发生故障时数据保持安全,还可以平衡多个主机上的用户负载,从而加快资源密集型查询的速度。

提示2:不要对RAM感到害羞

   ClickHouse 速度很快,但其速度取决于可用资源,尤其是 RAM。在开发或测试环境中以最少的 RAM 运行 ClickHouse 集群时,您可以看到出色的性能,但随着负载的增加,这可能会发生变化。

   在具有大量同时读取和写入操作的生产环境中,RAM 的不足将更加明显。如果您的 ClickHouse 集群没有足够的内存,它会变慢,并且执行复杂的查询将花费更长的时间。

   最重要的是,当ClickHouse执行资源密集型操作时,它可能会与操作系统本身竞争RAM,最终导致OOM,停机和数据丢失。

   ClickHouse 的开发人员建议使用至少 16 GB 的 RAM 来确保集群稳定。您可以选择较少的内存,但只有在您知道负载不会很高时才这样做。

提示 3:选择表格引擎时要三思而后行

   ClickHouse 支持多种具有不同特性的表引擎,但 MergeTree 引擎很可能是理想的选择。专用表是为特定用途量身定制的,但具有乍一看可能并不明显的局限性。日志系列引擎似乎是日志的理想选择,但它们不支持复制,并且其数据库大小有限。

   MergeTree系列中的表引擎是默认选择,它们提供了ClickHouse闻名的核心数据功能。除非您确切知道为什么需要不同的表引擎,否则请使用 MergeTree 系列中的引擎,它将涵盖您的大多数用例。

提示 4:主键不要使用超过三列

   ClickHouse中的主键与传统数据库中的主键用途不同。它们不确保唯一性,而是定义数据的存储和检索方式。

   如果使用所有列作为主键,则可能会受益于更快的查询。然而,ClickHouse的性能不仅取决于读取数据,还取决于写入数据。当主键包含许多列时,当数据写入整个集群时,整个集群的速度会变慢。

   ClickHouse中主键的最佳大小是两列或三列,因此可以运行更快的查询,但不会减慢数据插入速度。选择列时,请考虑将要发出的请求,并选择通常会在筛选器中选择的列。

提示 5:避免使用小插件

   当您在ClickHouse中插入数据时,它首先将包含此数据的部分保存到磁盘中。然后,它对这些数据进行排序、合并,并将其插入到后台数据库中的正确位置。如果您经常插入小块数据,ClickHouse 将为每个小插入创建一个部分。它会减慢整个集群的速度,您可能会收到“太多部分”错误。

   为了有效地插入数据,请以大块的形式添加数据,并避免每秒发送多个插入语句。ClickHouse 可以高速插入大量数据——即使是每秒 100K 行也可以——但它应该是一个批量插入,而不是多个较小的插入。

   如果数据分量很小,请考虑使用外部系统,例如用于制作批量数据。ClickHouse 与 Kafka 集成得很好,可以有效地使用其中的数据。<a>Managed Kafka</a>

提示6:想想你将如何摆脱重复的数据

   ClickHouse中的主键并不能确保数据是唯一的。与其他数据库不同,如果您在ClickHouse中插入重复数据,它将按原样添加。

   因此,最好的选择是在插入数据之前确保数据是唯一的。例如,您可以在流处理应用程序(如 Apache Kafka)中执行此操作。如果无法实现,则在运行查询时有一些方法可以处理它。一种选择是仅用于选择重复行的最后一个版本。您还可以使用设计删除重复条目的引擎。最后,您可以运行以合并数据部分,但这是一项资源要求很高的操作,并且只有在知道它不会影响集群性能时才应该运行它。`argMax`ReplacingMergeTree`OPTIMIZE TABLE ... FINAL`

提示 7:不要为每列创建索引

   就像使用主键一样,您可能希望使用多个索引来提高性能。当您使用与索引匹配的筛选器查询数据时,可能会出现这种情况,但总体而言,它不会帮助您更快地进行查询。

   同时,您肯定会体验到这种策略的缺点。多个索引会显著减慢数据插入速度,因为 ClickHouse 需要将数据写入正确的位置,然后更新索引。

   如果要在生产集群中创建索引,请选择与主键关联的列。


目录
相关文章
|
25天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
2天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
277 12
|
17天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
5天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
20天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
22天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2582 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
4天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
175 2
|
2天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
101 65
|
5天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
269 2
|
21天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1580 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码