玩转阿里云EMR三部曲-入门篇
优异的自动化创建集群让小伙伴专心于业务开发,不再纠结于hadoop、spark版本,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。可以保留更多精力和成本用于业务开发和维护,而把集群运维/存储问题托管给阿里云。
如何在Spark中实现Count Distinct重聚合
背景
Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。
基于 Spark 和 TensorFlow 的机器学习实践
大数据以及计算能力的提升,使得AI技术有了突飞猛进的发展。在大数据和AI技术的热潮下,在2019杭州云栖大会机器学习技术专场,阿里云高级技术专家吴威和阿里云技术专家江宇向大家分享了EMR E-Learning平台和平台上新开发的核心特性TensorFlow on Spark。
深度学习技术在自动驾驶中的应用与挑战
深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战,
Apache iceberg:Netflix 数据仓库的基石
Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。