助力云上开源生态 - 阿里云开源大数据平台的发展
阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。
【Spark Summit East 2017】使用Spark进行时间序列分析
本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库——spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例。
X-Pack Spark归档POLARDB数据做分析
简介
POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。