文档备案控制台

开发者社区大数据与机器学习实时数仓 Hologres 正文

我想创建Hologres一个月数据表，怎样设计合适一些？

我想创建Hologres一个月数据表，用来存放接收到的消息：消息id（唯一标识，无业务意义）、消息类、消息归属、发送者、事件时间
请问一下：Distribution Key、Clustering Key 怎样设计合适一些？

展开

收起

真的很搞笑 2023-12-25 08:57:13 236 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

小Lee
对于你的消息表设计，以下是一些可能的Distribution Key和Clustering Key设计方案：
- Distribution Key：可以选择消息归属或者其他具有较好分布特性的字段作为distribution key，以优化数据分布和查询性能。
- Clustering Key：可以选择事件时间作为clustering key，以便于按照时间顺序对数据进行排序和检索。同时，也可以考虑将消息类作为次要的clustering key，以便于快速查找特定类型的消息。
2023-12-25 17:09:42

赞同展开评论
芯在这

id做primary key，id也做distribution key，id也做clustering key，事件时间做segment key，消息类、消息归属、发送者做bitmap ，此回答整理自钉群“实时数仓Hologres交流群”

2023-12-25 16:54:50

赞同展开评论
1941623231718325
在设计Hologres的表结构时，考虑Distribution Key和Clustering Key的选择主要基于以下原则：
1. Distribution Key（分发键）：
  分布键的选择应该尽可能使得数据在各个分片（shard）上分布均匀。
  当查询时经常使用某个列作为过滤条件或者join条件时，选择该列作为分布键可以提高查询效率，因为Hologres可以直接定位到包含所需数据的分片。
在这个场景中，以下列可能适合作为Distribution Key：
- 消息归属：如果消息归属的种类数量较多且分布相对均匀，将其作为分布键可以使得数据在分片上均匀分布，并且如果经常按照消息归属进行查询或JOIN操作，这将提高查询效率。
1. Clustering Key（聚簇键）：
  聚簇键用于控制数据在磁盘上的物理存储顺序，使得相关数据能存储在一起，从而优化扫描和排序操作。
  在Hologres中，每个表最多只能有一个聚簇键，并且聚簇键的字段类型不能为float或double。
在这个场景中，以下列可能适合作为Clustering Key：
- 事件时间：如果查询通常按照事件时间进行排序或者范围扫描，那么将事件时间设为聚簇键可以优化这些操作。这样，最近的或者特定时间段的消息会在物理上存储在一起，减少读取数据时的IO。
总结起来，以下是一个可能的表设计：
```
CREATE TABLE messages (
    message_id BIGINT PRIMARY KEY,
    message_type VARCHAR,
    message_owner VARCHAR,
    sender VARCHAR,
    event_time TIMESTAMP,
) DISTRIBUTED BY (message_owner) CLUSTERED BY (event_time);
```
这个设计中，message_owner作为Distribution Key，可以优化按照消息归属的查询和JOIN操作；event_time作为Clustering Key，可以优化按照事件时间的排序和范围扫描操作。但是，请注意实际选择应根据你的具体业务需求和数据分布情况进行调整。
2023-12-25 09:09:09

赞同 1 展开评论

问答分类：

实时数仓 Hologres

问答标签：

实时数仓 Hologres数据表

问答地址：

开发者社区 > 大数据与机器学习 > 实时数仓 Hologres > 问答

相关问答

实时数仓 Hologres

Hologres查holo的元数据表，提示这个错误会是什么原因呢？我这边是专有云。

217

1

0

Hologres之前owner的库数据表查询都报没没有权限，怎么处理？

310

1

0

Hologres 是Hologres对查询数据表总大小进行新的限制了吗?

350

4

0

怎么找到创建的hologres的数据表？

249

2

0

有个hologres数据表，想在这个表里加字段，请问怎么操作呢？

637

1

0

Hologres查询外表未显示最新数据

216

1

0

Hologres读取MaxCompute外部表数据时使用WITH语句查询结果与不带WITH语句...

224

1

0

为什么Hologres相似的表格业务数据少但存储量显示大

183

1

0

Hologres如何实时写入DLF数据湖的数据

179

1

0

MaxCompute刚入完数据，要过几秒才能通过hologres外表查询到数据

394

1

0

大数据与机器学习

实时数仓 Hologres

本技术圈将为大家分析有关阿里云产品Hologres的最新产品动态、技术解读等，也欢迎大家加入钉钉群--实时数仓Hologres交流群32314975

我要提问

相关文章

Hologres CLI与Skills担当Agent-Ready 基础设施，共建数仓智能新生态

一条 SQL 生成广告：Hologres 如何实现素材生成到投放分析一体化

Hologres 4.1 新特性：基于 Stage 的离线导入，平衡吞吐与资源成本的最优解

AnalyticDB MySQL vs Hologres：阿里云内部数仓产品如何选——场景化选型指南

阿里云实时数仓 Hologres 对接使用完全指南

相关解决方案

更多

基于数据闪回，快速恢复数据

基于 Hologres 的广告创投一体化

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

Hologres中datav 价格怎么样？

update不支持更新distribution key的原因和解决办法

Hologres holostudio为什么不支持max_pt('table')取最大分区这个方法?

CCO是什么？

Hologres holo报日期转换超限怎么处理?

hologres如何使用jpa或者mybatisPlus进行操作？

查mc外表报错not supported table type "view"

Hologres这个可以咋调试啊？

Hologres这个update 语句执行了20s，要换行存？

行转列、列转行可以使用什么函数？

展开全部

实时数仓Hologres V2.2发布，Serverless Computing降本20%

Hologres揭秘:深度解析高效率分布式查询引擎

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

Hologres 4.0全新发布：AI时代的一站式多模态分析平台

Hologres揭秘：高性能原生加速MaxCompute核心原理

技术揭秘：从双11看实时数仓Hologres高可用设计与实践

首次揭秘云原生Hologres存储引擎

【云栖实录】Hologres3.0全新升级：一体化实时湖仓平台

深度分析：Apache Doris及其在大数据处理中的应用

Hologres CLI与Skills担当Agent-Ready 基础设施，共建数仓智能新生态

展开全部

还有其他疑问?