ROLAP与大数据

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 大数据相关的场景比较多,常见的有:ETL(数据提取、转换、加载)、实时流式(监控报警、风控等)、机器学习(推荐引擎、用户画像等)、非结构化分析(视频、图片、语音、文本等)、海量大数据在线存储(HBase)、搜索及我们本文讲的OLAP。 其中OLAP(在线联机分析)在很多企业占住分析类的大部分。

OLAP

大数据相关的场景比较多,常见的有:ETL(数据提取、转换、加载)、实时流式(监控报警、风控等)、机器学习(推荐引擎、用户画像等)、非结构化分析(视频、图片、语音、文本等)、海量大数据在线存储(HBase)、搜索及我们本文讲的OLAP。 其中OLAP(在线联机分析)在很多企业占住分析类的大部分。按照一般的理论又分为,M-OLAP,R-OLAP,H-OLAP。简单区别就是 M-OLAP是基于多维数组的存储模型,也是最原始的OLAP,但需要对数据进行预处理才能形成多维结构,大数据领域Kylin属于此类;R-OLAP是完全基于关系模型进行存放的,只是它根据分析的需要对模型的结构和组织形式进行了优化,目前MPP(greenplum)及MPP on HDFS(Presto、Impala)及SQL on DAG(Hive、Spark)均是此类。当然还有一类是H-OLAP,也就是说两者均满足需求,也是一种混合架构。

OLAP 与 大数据

大数据这个词,是从Hadoop之后才慢慢提出来的,开始的时候并不叫做大数据,很多企业叫做数据仓库部门,使用的基本是商用的组件。
随着Hadoop的兴起及MPP on廉价机器的发展,SQL on Hadoop类的引擎越来越多,比如有:Hive、Presto、Impala、Drill、Spark SQL、phoenix(SQL on HBase)、kylin(cube on HBase)等。特别是得益于分布式存储(HDFS)的发展,各类基于HDFS的分析组件越来越多,当然很多组件也支持HDFS之外的如:mysql、mongodb等数据源。下面笔者主要对比下目前主流R-OLAP模式的引擎,后续再有机会谈M-OLAP。
R-OLAP+大数据 也得益于列存储及内存存储的发展,再加上传统数据库的优化技术,在性能上也在不断加速。

R-OLAP

目前主流的ROLAP的支持的软件如下:
screenshot
Hive On MR应该是最先支持P级别的分析引擎之一,由于实在太慢了,出现一大卡车的优化技术,主要体现在下面的一些产品中。
其中 Hive On Tez、Hive On Tez with LLAP、SparkSQL 、Presto、Phoenix 较为看好,具体如果单单做OLAP,Hive On tez最为合适,如果有其它分析类需求混合使用SQL,则Spark较为合适;Presto从理论上讲,应该较快,追求高性能;另外,如果数据存在Hbase中,想做一些简单的分析,可以使用phoenix。
对于Flink,看好StreamingSQL,不过OLAP一块,目前实在没有发力。

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
存储 Kubernetes Cloud Native
【云原生】k8s组件&架构介绍与K8s最新版部署
【云原生】k8s组件&架构介绍与K8s最新版部署
927 0
|
11月前
|
机器学习/深度学习 数据采集 供应链
Python实现深度学习模型:智能库存管理系统
【10月更文挑战第5天】 Python实现深度学习模型:智能库存管理系统
866 9
|
9月前
|
存储 JSON 安全
使用 Qwen 进行Self-instruct数据生成
使用Qwen进行自指令数据生成,通过Self-instruct技术自动化为大型语言模型生成指令。用户可安装CAMEL包并设置Qwen API密钥,配置ChatAgent和SelfInstructPipeline,基于种子指令迭代生成大量新指令。支持多种过滤器(如长度、关键词、标点符号等)确保生成指令的质量和多样性。欢迎加入Discord获取支持与交流。
使用 Qwen 进行Self-instruct数据生成
|
存储 监控 数据可视化
基于阿里云 OpenAPI 插件,让 Grafana 轻松实现云上数据可视化
本文旨在提供一个指导性的框架,帮助用户了解插件的安装、配置以及探索如何通过 Grafana 内的阿里云 OpenAPI 插件来对云上数据进行可视化和快速验证开发原型,加强数据可视化和云监控能力,助力开发速度。
33997 110
|
11月前
|
C语言 开发者
C语言实现猜数字小游戏(详细教程)
C语言实现猜数字小游戏(详细教程)
|
11月前
|
vr&ar 数据安全/隐私保护 网络架构
一文带你了解WiFi7,比WiFi6强多了!
【10月更文挑战第2天】
1711 1
一文带你了解WiFi7,比WiFi6强多了!
|
消息中间件 Ubuntu 数据安全/隐私保护
Ubuntu上安装RabbitMQ
Ubuntu上安装RabbitMQ
253 1
|
移动开发 前端开发
基于jeecg-boot的flowable支持动态人员设置
基于jeecg-boot的flowable支持动态人员设置
452 0
|
Unix iOS开发 MacOS
「Python系列」Python pip(包管理工具)、Anaconda介绍
Python pip是一个现代的、通用的Python包管理工具,用于查找、下载、安装、卸载Python包。它支持从PyPI(https://pypi.org/)、版本控制、本地项目以及直接从分发文件进行安装。pip是一个命令行程序,安装后,会向系统添加一个pip命令,该命令可以从命令提示符运行。
455 0
|
人机交互
操作系统进行设备控制的常见方式
基于上一篇博客,对操作系统进行常见设备控制的方式介绍,并知识拓展。
905 2
操作系统进行设备控制的常见方式