备案控制台

开发者社区问答正文

大数据量分表，如何合并查询

目前的业务是每天的数据量有30w条，数据表按日区分，如果想对这所有的数据的进行筛选，应该使用哪些思路呢？

展开

收起

xiawang1024 2021-10-14 17:10:14 12163 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

针对您每天处理30万条数据，且数据表按日区分的业务场景，进行数据筛选时可以考虑以下思路：

分区设计：
- 利用时间列作为分区键来组织数据。根据业务查询需求的粒度，可以选择按日、月或年进行分区。例如，如果日常查询多聚焦于最近的数据，可采用按日分区（PARTITION BY VALUE(DATE_FORMAT(column_name, '%Y%m%d'))），这样能显著加速涉及时间范围的查询。
索引利用：
- 确保在频繁用于筛选条件的列上建立索引。虽然您的描述中未直接提及索引，但高效查询大量数据通常离不开合适的索引策略。对于日志表这类需频繁按时间过滤的场景，时间列上的索引是基础。
增量处理与归档：
- 考虑到数据量随时间累积，应实施数据归档策略。如参考资料中的方案B所述，可以使用阿里云DTS服务实现数据的定期迁移和清理，保持活跃数据集的精简，同时保留历史数据以备不时之需。
ETL优化：
- 在数据引入层（ODS）处理缓慢变化维度时，采取快照方式记录每日全量数据，便于关联查询。尽管这会增加存储成本，但对于确保数据完整性和简化逻辑非常有效。同时，要设定数据生命周期管理，定期清除过期无用的历史数据，以控制存储成本。
数据筛选组件应用：
- 在具体筛选操作上，可以借鉴数据筛选组件的功能逻辑。即使您可能不直接使用该组件，其设计理念仍适用：明确筛选规则（如能耗小于100），并配置相应的筛选变量和保留变量。在实际操作中，可以通过SQL语句实现类似功能，比如使用WHERE子句表达复杂的筛选逻辑。

综上所述，结合合理的分区策略、有效的索引利用、智能的数据归档机制、优化的ETL流程以及明确的数据筛选规则，可以高效地处理和筛选您每日大量的数据。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute查询云原生大数据计算服务 MaxCompute分表

问答地址：

开发者社区 > 云计算 > 问答

相关问答

MaxCompute如何将分表上传到ODPS的一张表上

72

1

0

DataWorks可以将maxcompute的数据同步到分表吗？可以实现吗？

74

2

0

dataworks 中从maxcompute 同步到mysql （mysql分表怎么做）？

413

2

0

MaxCompute使用分表和分区模式在SQL作业计算上费用有什么区别

95

1

0

大数据计算MaxCompute分表，我可以用啥方式记录这条数据来源哪个分表吗？

71

0

0

DataWorks将很多业务分表同步到odps的一个三级分区表中，每级分区怎么赋值？

95

1

0

dataworks支持maxcompute的数据同步到mysql的分表吗？

132

2

0

DataWorks中Maxcompute数据同步至mysql分表可以实现吗？

151

2

0

对ODPS查询结果进行取反,如何编写sql语句

1190

0

0

OLAP 可以根据业务要求快速、灵活地进行大数据量的复杂查询处理，其核心场景是什么？

736

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

相关文章

【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强，10万条SQL转写顺利迁移

ODPS 十五周年实录 | Data + AI，MaxCompute 下一个15年的新增长引擎

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

网站代码网站源代码网页源代码网页代码网站

还有其他疑问?