开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1510内容
玩转阿里云EMR三部曲-入门篇
优异的自动化创建集群让小伙伴专心于业务开发,不再纠结于hadoop、spark版本,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。可以保留更多精力和成本用于业务开发和维护,而把集群运维/存储问题托管给阿里云。
如何在Spark中实现Count Distinct重聚合
背景 Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。
基于 Spark 和 TensorFlow 的机器学习实践
大数据以及计算能力的提升,使得AI技术有了突飞猛进的发展。在大数据和AI技术的热潮下,在2019杭州云栖大会机器学习技术专场,阿里云高级技术专家吴威和阿里云技术专家江宇向大家分享了EMR E-Learning平台和平台上新开发的核心特性TensorFlow on Spark。
Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。
深度学习技术在自动驾驶中的应用与挑战
深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战,
Apache iceberg:Netflix 数据仓库的基石
Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。
免费试用