司麟嘟嘟嘟_个人页

个人头像照片 司麟嘟嘟嘟
个人头像照片
3
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2020年03月

  • 03.21 17:51:04
    发表了文章 2020-03-21 17:51:04

    通过Job Committer保证Mapreduce/Spark任务数据一致性

    并发地向目标存储系统写数据是分布式任务的一个天然特性,通过在节点/进程/线程等级别的并发写数据,充分利用集群的磁盘和网络带宽,实现高容量吞吐。并发写数据的一个主要需要解决的问题就是如何保证数据一致性的问题,本文主要介绍MapReduce/Spark如何通过Job Committer机制解决写数据一致性的问题,以及在OSS等对象存储上的解决方案。

2019年10月

  • 10.29 12:24:43
    发表了文章 2019-10-29 12:24:43

    如何在Spark中实现Count Distinct重聚合

    背景 Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。

2019年06月

  • 06.28 12:05:09
    发表了文章 2019-06-28 12:05:09

    EMR Spark Relational Cache如何支持雪花模型中的关联匹配

    在Spark中,Join通常是代价比较大,尤其是shuffle join。Relational Cache将反范式化表(即关联后的大表)保存为relational cache,便可以使用cache重写执行计划,提高查询效率。
  • 发表了文章 2020-03-21

    通过Job Committer保证Mapreduce/Spark任务数据一致性

  • 发表了文章 2019-10-29

    如何在Spark中实现Count Distinct重聚合

  • 发表了文章 2019-06-28

    EMR Spark Relational Cache如何支持雪花模型中的关联匹配

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息