在SmartBI中使用ClickHouse数据源进行透视分析

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 在使用SmartBI进行数据分析时,通过MPP高速缓存库可以大大加快计算速度,提高工作效率。我司SmartBI MPP高速缓存库的底层技术为ClickHouse。ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统,与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++。

在使用SmartBI进行数据分析时,通过MPP高速缓存库可以大大加快计算速度,提高工作效率。我司SmartBI MPP高速缓存库的底层技术为ClickHouse。ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统,与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++。
ClickHouse的特点:
1、支持线性扩展,简单方便,高可靠性;
2、速度快:比Vertica快5倍,比Hive快279倍,比MySQL快800倍,其可处理的数据级别已达到10亿级别;
3、功能多:支持数据统计分析各种场景,支持类SQL查询,异地复制部署。

数据源配置

选择定制管理->数据管理->数据源,将需要导入的表,从可用数据库资源,添加进已选数据库资源。这个页面因为可用资源过大,可能会提示等待时间过长,点击等待就好。
如果现有的报表数据集是明细数据,也可以从当前数据集进行导入,此步可跳过。
图片1.png

创建自助数据集

点击自助数据集。
image.png
根据步骤选择你需要导入的表,可以直接从数据连接中选择数据源,也可以基于现有的数据集。一般我们会选择直接从Hive库中加载数据到MPP。
图片2.png
第一次加载时选择全量抽取,其他保持默认选择即可,然后点击立即抽取。
image.png
保存数据集到对应的目录下即可,为了区分数据是否在MPP高速缓存库下,建议可以数据集命名时,增加MPP_前缀以和报表数据集做区分。
图片3.png
保存完成后,数据会开始抽取,右上角会显示抽取时间,结束后显示同步完成。在对应的目录下,就可以找到刚刚自定义的数据集。
图片4.png
要注意的是,默认情况下,在立即抽取完成后,系统会自动设置定时抽取。如果不需要定时抽取,则要在设置定时抽取界面里,取消勾选如下选项。
image.png

开始透视分析

右键新建分析,选择透视分析就可以和往常一样进行透视分析了,会发现统计计算的速度要比基于Mysql的分析快很多。Enjoy!
图片5.png
image.png

相关文章
|
13天前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
32 0
|
SQL Oracle 关系型数据库
|
15天前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
4月前
|
DataWorks API 调度
DataWorks产品使用合集之在调度配置配置了节点的上游节点输出,没办法自动生成这个flow的依赖,该怎么操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 安全 关系型数据库
DataWorks产品使用合集之建了 polar 与clickhouse的数据源。为什么数据库这里总是mysql呢
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 SQL 运维
OLAP数据库选型指南:Doris与ClickHouse的深入对比与分析
OLAP数据库选型指南:Doris与ClickHouse的深入对比与分析
|
存储 SQL 数据挖掘
ClickHouse使用场景和案列分析
@[TOC](目录) # 一、ClickHouse 概述 ## 1. ClickHouse简介 ClickHouse 是一款开源的分布式列式数据库,旨在处理大规模数据集并实现快速查询。它最初由俄罗斯搜索引擎公司 Yandex 于 2016 年发布,并在短时间内获得了广泛的关注和应用。ClickHouse 具有高性能、可扩展性和可靠性等特点,成为处理海量数据的理想工具。 ## 2. ClickHouse 发展历程 ClickHouse 的发展历程可以追溯到 2016 年,当时 Yandex 公司意识到传统的关系型数据库在处理大规模数据时存在性能瓶颈,于是开始研发一款专为大数据处理而设计的列式数
2560 0