备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

用Delta Lake 怎么恢复数据？

用Delta Lake 怎么恢复数据？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 11:28:30 822 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

理想情况是，实时与离线使用同一套SQL，同一套计算逻辑，同一个数据源，这样随时可以用离线脚本重跑历史数据。但是现实是没有哪个框架支持。所谓流批一体，都是在引擎层面，例如Spark的streaming和SQL都是batch的方式，流只是更小的批。而Flink则希望用流的方式去处理批数据，批只是有边界的流。针对高阶的SQLAPI，流批都有很大的区别。基于DeltaLake的分区表，将dw层的实时数据按时间分区，这样可以随时用离线作业恢复历史分区的数据。而DW之上的汇总因为数据量相对较小，恢复之后可以用流作业从头消费。

2020-12-28 11:28:49

赞同展开评论打赏

问答分类：

开源大数据平台 E-MapReduce

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

Delta Lake里的表可以分为哪几类？

421

1

0

Delta Lake当前应用情况是怎么样的？

310

1

0

Delta Lake要解决的问题是什么？

385

1

0

Delta Lake关键特性是什么？

354

1

0

什么是基于Delta Lake的架构设计？

387

1

0

Delta lake数据入湖的意思是什么呢？

1588

1

0

Delta lake的一站式数据是什么呢？

487

1

0

Delta Lake是什么？

1846

2

0

用Delta Lake 小文件多问题如何解决？

2466

1

0

Delta Lake 事务日志如何工作？

668

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

E-MapReduce和MaxCompute的区别是什么？

阿里云E-MapReduce notebook 大概什么时候会正式上线？

E-MapReduce由于某些未知错误、异常或失败，请求处理失败？

E-MapReduce(Elastic MapReduce，EMR) 是什么？

阿里云E-MapReduce这种命令方式，如何配置kerberos相关的参数？

Cosco的优势是什么？

数据湖统一元数据服务需要具备哪些能力和价值？

各位大佬，请教下flink sink到oss按官网上的报找不到endpoint，我要想在idea中运

Spark3 Join Hints是什么？

Ray是什么？

展开全部

阿里封神谈hadoop生态学习之路

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

从数砖开源 Delta Lake 说起

Apache Spark 3.0 将内置支持 GPU 调度

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载