Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11253内容
开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
Hadoop开源生态Spark已经发展三年有余,今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上,Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性,以及其在数据工程以及数据科学方面带来的新技术。
解密 阿里巴巴大数据女程序员瑞清代码诗!
2018年已过,我们迎来了新的一年,在机遇与挑战同在的环境下,我们更应勤于学习。为了方便大家学习,小编为大家盘点了2018年阿里巴巴大数据—玩家社区云栖号最火的干货文章分享给大家,让我们在新的一年里共同学习和成长! 阿里巴巴大数据 —玩家社区 云栖号简介: 阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎…… 2018年10篇最受欢迎博文: 第一篇: 《MaxCompute/DataWorks权限问题排查建议》 MaxCompute与DataWorks为两个产品,在权限体系上既有交集又要一定的差别。
怎么才能向技术大牛提切中要点的问题?本文教你如何高质量提问
是否为向别人请教问题却不能切中要点而苦恼过?是否为遇到一个问题却表达不出而失望过?别着急,本文可以帮助你提出高质量的问题。
菜鸟的Hadoop快速入门
一、相关概念 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。
MapReduce 不适合处理实时数据的原因剖析
1.概述    Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一 些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助Twitter推出得Storm。Storm不处理静态数据,但它处理预
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做数据可视化,用 R 做数据分析)。
阿里云EMR产品介绍及常见问题解答
原作者:阿里云解决方案架构师,韩虎。本文主要介绍阿里云EMR产品相对于传统大数据产品的优势,以及平时运维过程中遇到的问题解法。
免费试用