Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11265内容
| |
来自: 数据库
分布式(hadoop)内核研发面试指南
本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。
权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算
阿里巴巴需要研发世界级一流的流式计算引擎,实时处理海量数据,提供在线统计、学习和预测能力,不仅支持阿里巴巴自己的核心电商场景,同时也能通过阿里云向外部中小企业提供流式计算服务,输出实时计算能力,这就是我今天要分享的最新一代阿里巴巴实时计算引擎Blink。
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;     默认值:strict   描述:strict是避免全分区字段是动态的,必须
阿里封神-大数据处理技术漫谈
以前一篇博客,从宏观描述了云梯1当时整体生态,年底了,笔者再梳理下软件栈,主要以开源软件为主,闭源不谈。大数据发展至今,开源软件层出不穷,也去解决了不同的问题,笔者试图去弄清楚这些,分门别类,后面也可以参照下。由于笔者知识面有限,难免会出现一些偏颇,不全,不正确,还请指正。后面也会有很多新的软件出现
后Hadoop时代,我们该如何去架构自己的大数据平台
环顾时下,未来的大数据引擎究竟采用什么样的方式尚不可知,不过在大数据平台构建过程中如何去做好技术选型,以及在后续过程中如何做好开源的自主研发却是个值得讨论问题。
SpringBoot开发案例之整合Kafka实现消息队列
前言 最近在做一款秒杀的案例,涉及到了同步锁、数据库锁、分布式锁、进程内队列以及分布式消息队列,这里对SpringBoot集成Kafka实现消息队列做一个简单的记录。 Kafka简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。
免费试用