基于Spark和Hive进行的豆瓣电影数据分析
写在前边的话:
算是自己做的一个小课题吧,自己搭建平台,自己爬取数据,自己进行数据清洗和分析,自己进行可视化展示,写这篇博客不为别的,只是记录下自己做这个课题的整个过程,大神们勿喷
环境说明:hadoop2.
SQL 数据库查询的优化工具及实用
这是MaxCompute有关SQL优化器原理的系列文章之一,本文主要是对数据库查询优化器的一个综述,包括:
查询优化器定义、分类
查询优化器执行过程
CBO框架Calcite简介
1.查询优化器是什么
数据库主要由三部分组成,分别是解析器、优化器和执行引擎,如下图所示:
其中优化器是数据库中用于把关系表达式转换成执行计划的核心组件,很大程度上决定了一个系统的性能。
Hive与Hbase整合
<h2 class="note-title" style="font-family:'Helvetica Neue',Arial,'Hiragino Sans GB',STHeiti,'Microsoft YaHei','WenQuanYi Micro Hei',SimSun,Song,sans-serif; line-height:1.1; color:rgb(22,32,41); ma
Hive 工作原理详解
什么是Hive?
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。