开发者社区> 问答> 正文

Apache spark如何在数据湖中更新海量原始数据?

我正在设计一个分析型大数据系统。我将拥有大量数据。问题在于大量原始数据将经常被更新(每次大约20,000,000个事件)。

我想做的就是将最新数据放入数据湖(Hadoop)中的新文件中,然后运行(Spark)作业,它将新的原始数据与旧的合并。这将花费太长时间。

您对如何改善此过程有任何想法吗?

展开
收起
被纵养的懒猫 2019-09-23 17:22:35 5160 0
2 条回答
写回答
取消 提交回答
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;

    hudi的出现确实为了解决类似的问题

    2020-03-22 11:54:31
    赞同 展开评论 打赏
  • 长期从事大数据系统与产品研发。

    可以考虑hudi,delta这种支持增量更新的数据格式

    2020-03-20 09:49:54
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink技术进阶 立即下载
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载

相关镜像