深入理解Cassandra中用户指定的Compaction执行

简介: 深入理解Cassandra中用户指定的Compaction执行

在本文中,我将向您介绍Apache Cassandra中的一个高级选项,称为用户自定义compaction。顾名思义,这是一个告诉Cassandra显式地为一个或多个表创建compaction任务,然后这个任务被移交给Cassandra运行时,像其他任何compaction一样执行。

这不是你每天都需要做的操作。但是,当您希望立即回收磁盘空间,而不希望等待正常compaction启动时,它非常有用。

除非您运行的是Cassandra 3.4版(请参阅CASSANDRA-10660),否则需要使用JMX来发布用户定义的Compact.如果您以前没有使用过jmx命令,那么一开始可能会觉得很难接受。如果您来自非java背景,那么它很可能是一个完全陌生的概念。别让那吓跑你!在本文结束时,您将能够使用名为jmxterm的实用程序执行用户定义的compact。

为了演示这个过程,我们将使用本地安装的Cassandra 3.0.9,它加载了movielens数据(请参阅Movielens项目),使用CDM实用程序并强制刷新到磁盘(要了解更多关于CDM的信息,请参阅此TLP博客文章):

cdm install movielens
nodetool flush

需要调用nodetool flush以确保memtables已写入磁盘,如果我们不这样做,我们的数据将被放在内存中,Compaction是需要数据存在磁盘上。

我注意到movielens keyspace的用户目录中的数据文件:

jhaddad@rustyrazorblade ~/dev/cassandra$ find data/data/movielens/  -name '*Data.db'
data/data/movielens//movies-6728183094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//ratings_by_movie-6c2408d094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//ratings_by_user-69a85a7094d311e68b105dbb96ed2de2/mc-1-big-Data.db
data/data/movielens//users-68668ba094d311e68b105dbb96ed2de2/mc-1-big-Data.db

你可以在上面的输出中看到,我们有一个“users”目录,其中有一个数据文件mc-1-big-data.db。我们稍后需要完整的路径。

既然磁盘上有SSTables,那么让我们使用JMX来调用compact,因此我们首先需要获取jmxterm,这可能是整个过程中最棘手的部分,因为原始jmxterm页面上的下载链接已断开。从下载jmxterm的目录中使用以下命令启动它:

  java -jar jmxterm-1.0-alpha-4-uber.jar

要查看所有可用的命令,请使用help命令(输出被截断):

$>help
#following commands are available to use:
about    - Display about page
bean     - Display or set current selected MBean.
beans    - List available beans under a domain or all domains
...
open     - Open JMX session or display current connection
option   - Set options for command session
quit     - Terminate console and exit
run      - Invoke an MBean operation
set      - Set value of an MBean attribute

不过,我们要做的第一件事实际上是链接上Cassandra。标准的jmx端口是7199,你可以将其与主机一起传递给open命令:

$>open localhost:7199
#Connection to localhost:7199 is opened

在连接打开的情况下,我们可以在这里键入bean以获取可以访问的mbean列表。mbean只是通过jmx控制数据库的一种方式。我简化了输出,以便更容易找到我们要找的东西,CompactionManager:

$>beans -d org.apache.cassandra.db
#domain = org.apache.cassandra.db:
org.apache.cassandra.db:columnfamily=IndexInfo,keyspace=system,type=ColumnFamilies
org.apache.cassandra.db:columnfamily=aggregates,keyspace=system_schema,type=ColumnFamilies
...
org.apache.cassandra.db:type=CompactionManager
...

现在我们知道了mbean的名称,可以调用run命令,将mbean方法名forceuserdefinedcompaction和一个或多个文件路径作为参数传递:

$>run -b org.apache.cassandra.db:type=CompactionManager forceUserDefinedCompaction data/data/movielens//users-68668ba094d311e68b105dbb96ed2de2/mc-1-big-Data.db
#calling operation forceUserDefinedCompaction of mbean org.apache.cassandra.db:type=CompactionManager
#operation returns:
null

不幸的是,不是很令人高兴的输出。只有在查看目录后,我们才能看到文件号已从mc-1更改为mc-2:

jhaddad@rustyrazorblade ~/dev/cassandra$ ls data/data/movielens/users-68668ba094d311e68b105dbb96ed2de2/*Data.db
data/data/movielens/users-68668ba094d311e68b105dbb96ed2de2/mc-2-big-Data.db

Compact多个文件只是将它们传递给MBean,用逗号分隔。

此时,您应该熟悉使用jmxterm通过JMX启动用户定义的compact的过程我建议您在笔记本电脑上尝试一下,以适应这个过程,并探索其他可用的MBean。如果您更喜欢使用可视化工具而不是命令行工具,请查看jconsole,它随oracle jdk一起提供,但通常在生产中不太有用。

本文翻译自:https://thelastpickle.com/blog/2016/10/18/user-defined-compaction.html

入群邀约
为了营造一个开放的 Cassandra 技术交流环境,社区建立了微信群公众号和钉钉群,为广大用户提供专业的技术分享及问答,定期开展专家技术直播,欢迎大家加入。
阿里云为广大开发者提供云上Cassandra资源,可用于动手实践:9.9元可使用三月(限首购)。
直达链接:https://www.aliyun.com/product/cds
8a55f5a99463a7276265074b1079d74f4ab3d164

目录
相关文章
|
Oracle 安全 关系型数据库
【Oracle】使用Navicat Premium连接Oracle数据库两种方法
以上就是两种使用Navicat Premium连接Oracle数据库的方法介绍,希望对你有所帮助!
2609 28
|
9天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
10天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
771 11
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
10天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
803 7
|
10天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
10天前
|
JSON 缓存 安全
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
CC Switch 通过本地路由(`127.0.0.1:15721`)实现协议转换:将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口,兼容流式响应与工具调用,无需修改 Codex 源码,安全隔离 API Key。(239字)
2112 4
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
|
10天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
769 150
|
10天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1821 6