Spark

首页 标签 Spark
# Spark #
关注
9090内容
| |
来自: 数据库
分布式(hadoop)内核研发面试指南
本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。
昂贵的付费学习时代,云栖为什么会做面向开发者的纯公益?
在这个收费会议横行、企业内训比比皆是的时代,阿里云栖社区为什么会搞“开发者技术专场”这个免费的开源技术实践专场?
| |
来自: 数据库
X-Pack Spark归档POLARDB数据做分析
简介 POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。
一分钟了解阿里云产品:E-MapReduce概述
  阿里云有很多出色的产品,今天让我们来一起了解下E-MapReduce吧。   什么是E-MapReduce呢?   简单来说,E-MapReduce是构建于阿里云ECS弹性虚拟机之上,运行在阿里云平台上的一种大数据处理系统解决方案。它能够让用户将Apache Hadoop和Apache
阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎
11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
## Spark作业性能调优总结
Spark作业性能调优总结 前段时间在集群上运行Spark作业,但是发现作业运行到某个stage之后就卡住了,之后也不再有日志输出。于是开始着手对作业进行调优,下面是遇到的问题和解决过程: 运行时错误 Out Of Memory: Java heap space / GC overhead limit exceeded 使用yarn logs -applicationId=appliation_xxx_xxx 命令查看Yarn收集的各个Executor的日志。
使用Alluxio高效存储Spark RDD
在这篇文章中,我们将介绍如何使用Alluxio帮助Spark变得更高效,介绍多种将Alluxio应用在Spark上的方法。
Spark修炼之道(基础篇)——Linux大数据开发基础:第二节:Linux文件系统、目录(一)
本节主要内容 如何获取帮助文档 Linux文件系统简介 目录操作 访问权限 1. 如何获取帮助文档 在实际工作过程当中,经常会忘记命令的使用方式,例如ls命令后面可以跟哪些参数,此时可以使用man命令来查看其使用方式,例如 //man命令获取命令帮助手册 xtwy@ubuntu:~$ man ls 可以使用键盘上的 来显示下一行或上一行命令,也可以使用
免费试用