ClkLog基于ClickHouse 的百万日活实测报告

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 自 ClkLog 上线以来,我们不断吸纳用户需求,提升产品的支持能力。今年下半年,我们遇到了日活跃用户数达到百万级别的客户。为了给 ClkLog 用户提供可靠的技术建议和解决方案,同时也为了节省成本,在Clickhouse官方支持下,我们在阿里云上对 ClickHouse 社区版、企业版进行了详细测试和成本分析。

背景介绍

自 ClkLog 上线以来,我们不断吸纳用户需求,提升产品的支持能力。今年下半年,我们遇到了日活跃用户数达到百万级别的客户。为了给 ClkLog 用户提供可靠的技术建议和解决方案,同时也为了节省成本,在Clickhouse官方支持下,我们在阿里云上对 ClickHouse 社区版、企业版进行了详细测试和成本分析。

本次测试主要目的是评估 ClkLog 在不同日活跃用户量级(一万、十万、百万)下,使用阿里云 ClickHouse 作为埋点系统数据库的各项处理能力,特别是针对百万级日活跃用户的性能表现。

大家可以根据本次测试的结果,结合自己应用的实际日活跃用户数量、成本预算和性能要求等条件,选择合适的服务器硬件配置和部署策略。

测试内容
ClkLog用户行为分析系统主要使用了23个统计脚本对原始采集数据进行多维计算,以此获得各维度上的统计报表,所以本次测试是测试日活(1万/10万/100万)的日志数据存储、数据库表存储的容量、统计数据更新时间延迟(依次计算23个统计脚本的总耗时) 和前端接口的性能。

测试方法
硬件以4Core CPU、8G内存为起点,日活以1万起点,分别测试1万/10万/100万,在阿里云服务器上对ClkLog日活数据的Clickhouse社区自建版和Clickhouse企业版在单机和集群模式下进行螺旋上升式测试。

数据准备
本次测试按照每人每天100条日志来估算日志量,并以1天的日志模板复制出1月、1年的数据。

我们准备各种日活情况下1天的日志数据据,导入clickhouse中log_analysis(原始日志表),log_event(事件表),log_user(用户表)。其中原始日志包含100个不同页面,1000个不同设备型号。

测试场景
在各种日活情况下,测试以下内容:
- 日志文件容量、数据库表容量。
- 后端统计数据更新时间延迟,涉及浏览量、访客、设备、页面、地域、用户画像等中间统计结果的23个统计脚本的执行总耗时。

  • 前端接口在一天、一周、一个月、一年等时间跨度的耗时。

测试结果
1)Clickhouse社区版单机
图片1.png

2)Clickhouse社区版集群(2个节点)
图片2.png

3)Clickhouse企业版集群(2个节点), 100万日活(人均100条日志)
图片3.png

汇总分析
1)1万/10万/100万日活数据,按每日人均100条日志采集,采集日志文件在1天、1个月、1年下的占用的空间存储总量如下图所示:
图片4.png

2)1万/10万/100万日活数据,按每日人均100条采集日志日库,数据库文件在1天、1个月、1年下的相关表的记录总数核各个表的占用的空间总量如下图所示:
图片5.png

3)23个统计脚本总耗时(单位:毫秒)
图片6.png

*说明:我们只在ClickHouse企业版集群下做了100万日活的测试。

4)集群版统计脚本总耗时对比
图片7.png

测试结论
根据上述测试结果可得出以下结论:
1.Clickhouse社区版,相同服务器配置,2个节点集群模式比单机模式下,统计脚本总耗时减少80%以上。

2.Clickhouse企业版集群在最低可选配置4核16GB无弹性扩容的2个节点上,100万的测试结果已近似社区版2节点每节点16核32GB内存的结果。

3.Clickhouse企业版集群单节点起步4核可弹升至8核的2个节点上,100万的测试结果对比社区版2节点每节点16核32GB内存,效率可提升30%。

4.企业版集群测试,随着最大可弹升CCU配置的提升,查询效率可继续提升。

5.成本测算:本次测试Clickhouse社区版使用ecs.u1-c1m2.4xlarge机型,存储选择ESSD 20GB PL0,双节点加存储(3T)包月成本为:1348 2(计算) +1588(存储) = 4280元。而企业版选择8-16CCU,预付资源包成本为:16184.60.7+31024*0.12=2400 元,轻松节省40%+成本!

(*说明:184.6为企业本每CCU预付单价每月,实际CPU使用在min(8)和max(16)之间波动,0.7为一般客户弹性系数;0.12为对象存储企业版每GB预付单价每月)

希望本次测试结果能为有需要的伙伴们提供有价值的信息。如果您有任何关于性能或功能方面的问题,欢迎随时联系我们。


结束语.png

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
存储 SQL 编解码
如何在ClickHouse中处理时序数据
ClickHouse具有强大的工具,可以高效地存储和处理时序数据,并可用于简单的解决方案和数据发掘,以及支持PB级的实时分析应用。
|
关系型数据库 MySQL Docker
Docker - 运行 Mysql 容器后报错:[ERROR] --initialize specified but the data directory has files in it. Aborting.
Docker - 运行 Mysql 容器后报错:[ERROR] --initialize specified but the data directory has files in it. Aborting.
2057 0
Docker - 运行 Mysql 容器后报错:[ERROR] --initialize specified but the data directory has files in it. Aborting.
|
6月前
|
存储 数据采集 搜索推荐
源码交付+可控部署:用户行为分析系统的落地经验
在此前的回访中,我们已经与多家来自金融、媒体等行业的企业进行过沟通,了解了他们在用户行为分析方面的需求和实际应用情况。本次回访的对象是一家专注于社交软件研发的技术公司,他们的产品以用户互动为核心,对行为数据的依赖程度更高,也更强调数据可控性与部署灵活性。这为我们进一步验证 ClkLog 在不同行业场景下的适用性提供了有价值的参考。
|
2月前
|
存储 数据采集 JSON
ClkLog埋点分析系统-私有化部署+轻量灵活
ClkLog 自发布以来已有两年时间。从最初的社区版,到如今不断迭代出专业版与企业版,我们一直紧跟用户需求,不断优化产品,只为做出真正“小而美、好上手、落地快”的用户行为分析系统。在ClkLog 2.0 版本发布之际,我们来聊聊企业在做用户行为分析时常遇到的挑战,以及ClkLog是怎么帮大家解决痛点的。
|
6月前
|
数据采集 搜索推荐 项目管理
通用型埋点系统完整开源方案-ClkLog新升级更强大、更易用
我们希望ClkLog开源社区版,不是“精简试用版”,而是一个真正能被部署和使用的完整方案。 过去这一年,我们一直在倾听大家的反馈,并不断思考:一款开源行为分析系统,真正顺利地被用起来,需要具备哪些要素和功能? 为了让大家在使用过程中更流畅更便捷,ClkLog开源社区版迎来了一次新升级! 现在上Gitee、Github、GitCode 即可获取最新的更新代码
|
4月前
|
搜索推荐 小程序 数据可视化
网站用户访问分析入门:新手必懂的6个关键指标
如果你正在运营一个网站,无论是产品官网还是电商平台,用户访问分析一定是绕不开的一项工作。 但对很多刚入门的新手来说,打开一个数据平台,常常是一脸懵: PV?UV?跳出率?这些到底是什么?要看哪些指标才有用? 这篇文章,我们一起看看网站访问分析中最基础的6个核心指标,帮你快速理解并掌握基本的分析能力。
|
7月前
|
人工智能 Cloud Native 前端开发
Bolt.diy 测评:从零部署到创意实践的全流程体验
本文详细介绍了阿里云解决方案中的Bolt.diy工具,一款基于AI的开源全栈开发平台。通过自动部署方式,用户可快速体验其多模型适配、全栈开发等功能。文章涵盖从开通服务到部署应用的具体步骤,并结合实际案例展示了生成网页的效果与局限性。尽管Bolt.diy能显著提升建站效率,但在复杂需求处理和稳定性上仍有改进空间。建议优化代码生成实时查看、预览异常处理等问题,并增加更多学习资源以帮助用户更好地设计Prompt。
722 43
|
5月前
|
数据采集 搜索推荐 数据可视化
一文讲透,如何快速完成埋点与用户行为分析产品选型
在ClkLog的日常咨询中,我们发现有接近一半的客户是刚刚起步接触用户行为分析,在意识到这项需求之后,他们常常面临各种困惑。为此,ClkLog通常会建议客户从三个关键点来梳理: 我们的需求目标是什么?可能会涉及哪些产品? 公司对产品数据是否有要求?SaaS还是私有化建设? 核心需求是哪些?是否需要产品包含或可以自己二开?
|
2月前
|
存储 JSON 数据处理
ClkLog埋点与用户行为分析系统:架构升级与性能全面提升
随着越来越多企业在实际业务中使用 ClkLog,数据规模和分析需求也不断提升,部分用户日活已经超过10万,为了顺应这一趋势,ClkLog 秉持 “开放透明、持续演进”的理念,推出了迄今为止最重要的一次性能优化升级。新版本在大规模数据处理与复杂查询场景中,性能表现实现了跨越式提升。经过多轮研发与严格测试,新版本现已正式上线:在原有付费版 1.0 的基础上架构全面升级,并同步发布全新的 2.0 版本。为用户带来更强的性能与更广的适用场景。
|
3月前
|
搜索推荐
转化率始终上不去?用户行为分析来帮你
做运营的伙伴都知道,无论是网站还是 APP,转化行为总是运营团队最关心的指标之一。 我们日常运营会关注的有:注册、下单、预约、表单提交、咨询等,不同业务形态的目标不同,但背后的核心问题却相似:流量进来了,为什么总是无法顺利转化?