X-Pack Spark归档POLARDB数据做分析
简介
POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。
一分钟了解阿里云产品:E-MapReduce概述
阿里云有很多出色的产品,今天让我们来一起了解下E-MapReduce吧。
什么是E-MapReduce呢?
简单来说,E-MapReduce是构建于阿里云ECS弹性虚拟机之上,运行在阿里云平台上的一种大数据处理系统解决方案。它能够让用户将Apache Hadoop和Apache
阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎
11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
## Spark作业性能调优总结
Spark作业性能调优总结
前段时间在集群上运行Spark作业,但是发现作业运行到某个stage之后就卡住了,之后也不再有日志输出。于是开始着手对作业进行调优,下面是遇到的问题和解决过程:
运行时错误
Out Of Memory: Java heap space / GC overhead limit exceeded
使用yarn logs -applicationId=appliation_xxx_xxx 命令查看Yarn收集的各个Executor的日志。