备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute我现在弄的这个数据合并历史数据+datahub的binlog变化?

大数据计算MaxCompute我现在弄的这个数据合并历史数据+datahub的binlog变化数据，跑起来贼耗时，历史数据有七八亿，每天对齐增删改都有，想搞实时有点难搞，你们的实时准实时咋搞的？

展开

收起

真的很搞笑 2023-08-13 11:02:24 160 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在处理大规模数据合并的场景下，确实可能会面临性能和效率方面的挑战。针对您描述的情况，以下是一些可能的方法和建议，以提高实时或准实时数据合并的效率：

数据分区和分桶：对于历史数据和实时数据，考虑使用数据分区和分桶的方式进行存储和管理。通过将数据按照某个维度进行划分，可以提高查询和合并的效率。例如，可以按照日期、时间戳等将数据进行分区，或者根据某个唯一标识进行分桶。

增量同步和增量计算：对于实时数据，可以采用增量同步和增量计算的方式，只处理新增、修改或删除的数据，而不需要每次都对整个历史数据集进行处理。这可以通过监控数据源的变化并实时同步到目标数据存储中，然后将变化的数据进行增量计算和合并。

缓存和索引：考虑使用缓存和索引来加速数据的访问和查询。可以将常用的数据或计算结果缓存起来，避免每次都进行全量计算。此外，对于经常需要查询或合并的字段，可以创建相应的索引，以提高查询效率。

并行计算和分布式处理：利用并行计算和分布式处理的特性，将计算任务分发到多个计算节点上并行执行，以加快处理速度。MaxCompute 作为大数据计算引擎，支持并行计算和分布式处理，可以利用其强大的计算能力来处理大规模数据。

数据预处理和优化：在进行数据合并之前，可以进行一些数据预处理和优化操作，以减少数据量、提高数据质量和整理数据结构。这包括数据清洗、数据压缩、数据格式转换等。通过减少数据的冗余和优化数据结构，可以减少计算和存储的开销。

数据仓库设计和优化：设计合理的数据仓库结构和模型，以满足查询和合并的需求。合适的表结构、分区方式和索引设计可以提高查询效率和数据合并的性能。

2023-08-13 22:16:19

赞同展开评论
芯在这

物理删除的只能靠flink，如果没有flink只能依靠手动隔断时间拉一下全量覆盖，此回答整理自钉群“MaxCompute开发者社区2群”

2023-08-13 11:35:05

赞同展开评论

问答分类：

分布式计算大数据 MaxCompute 数据总线 DataHub 云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute数据数据binlog 云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 大数据云原生大数据计算服务 MaxCompute数据

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

数据传输服务DTS的是否可以用flink消费datahub中的数据写到adb中

117

1

0

Maxcompute中PyODPS如何指定合并小文件的参数

141

1

0

MaxCompute合并小文件时报错invalid partition format or v...

108

1

0

MaxCompute如何使用函数将数组合并

150

1

0

武老师我有个技术问题请教。我的需求是读取opc ua数据，然后写入datahub，请问该如何快速实现

92

1

0

datahub，源端在传数据的时候，报错OGG-15051 Java or JNI

155

0

0

Flink在重跑的期间 datahub的数据持续导入那增量的数据是追加到最新保存点的后面么？

76

1

0

大数据计算MaxCompute设置了这个会30分钟自动合并小文件吗？

142

1

0

企业版Flink CDC能从Hologress捕获变更数据到kafka或datahub吗

94

1

0

大数据计算MaxCompute出现以下错误事务表+分区表，要怎么合并小文件？

137

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

阿里云服务器按量付费与包年包月收费标准，云服务器最新活动价格参考

主流ChatBi产品推荐，一文看懂分析agent产品选型

数据嗅探社会热点：我们靠“感觉”，机器靠“证据”

基于python大数据的小说数据可视化及预测系统

2026版基于python大数据的电影分析可视化系统

热门讨论

热门文章

大数据计算MaxCompute阿里云一个CU对应多少cpu和内存？

大数据计算MaxCompute的group by 时合并array , 用什么方法？

MaxCompute中执行SQL报错ODPS-0130071

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

在大数据计算MaxCompute中，这要怎么修改字段类型？

dataworks中maxcompute里是否内置比较字符串相似度的函数？

sparksql中cte物化方式是怎样的

实时数仓Hologres百问百答合集--（持续更新20220507）

展开全部

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

干货：解码OneData，阿里的数仓之路。

品《阿里巴巴大数据实践-大数据之路》一书（上）

阿里云MaxCompute 2019-5月刊

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

展开全部

还有其他疑问?