阿里封神谈hadoop生态学习之路
在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。
JindoFS: 云上大数据的高性能数据湖存储方案
JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。
5W1H(六何分析法)全景洞察大数据
我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。
从数砖开源 Delta Lake 说起
Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。