Netflix:如何打造开放协作的实时 ETL 平台?
本文由 Netflix 高级软件工程师徐振中分享,内容包含有趣的案例、分布式系统基础方面的各种挑战以及解决方案,此外还讨论了其在开发运维过程中的收获,对开放式自助式实时数据平台的一些新愿景,以及对 Realtime ETL 基础平台的一些新思考。
Shark
Shark自己也没用过,不太熟悉,只了解它的背景,现在已经被Spark淘汰,也不去熟悉它了!
Spark 1.0版本开始,推出了Spark SQL。
hadoop——hive学习
一、前言
Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。
Hadoop常用下载地址
组件地址:
Apache Hadoop下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/
CDH Hadoop下载地址:http://archive.
Hive SQL 监控系统 - Hive Falcon
1.概述
在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候,需要在 Hive 终端,编写 SQL 语句,来观察 MapReduce 的运行情况,长此以往,感觉非常的不便。
Hive的几个复杂情况
行转列与列转行:
https://blog.csdn.net/jx_870915876/article/details/52403472
lateral view语句
https://blog.
centos+hadoop+hive 安装
环境:windows10、virtualBox、centos6.8、hadoop2.6.0、 jdk1.7.0_79、mysql
本文主要分为4大块,分别是virtualbox下centos安装、hadoop安装、hive安装。