在SmartBI中使用ClickHouse数据源进行透视分析

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 在使用SmartBI进行数据分析时,通过MPP高速缓存库可以大大加快计算速度,提高工作效率。我司SmartBI MPP高速缓存库的底层技术为ClickHouse。ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统,与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++。

在使用SmartBI进行数据分析时,通过MPP高速缓存库可以大大加快计算速度,提高工作效率。我司SmartBI MPP高速缓存库的底层技术为ClickHouse。ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统,与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++。
ClickHouse的特点:
1、支持线性扩展,简单方便,高可靠性;
2、速度快:比Vertica快5倍,比Hive快279倍,比MySQL快800倍,其可处理的数据级别已达到10亿级别;
3、功能多:支持数据统计分析各种场景,支持类SQL查询,异地复制部署。

数据源配置

选择定制管理->数据管理->数据源,将需要导入的表,从可用数据库资源,添加进已选数据库资源。这个页面因为可用资源过大,可能会提示等待时间过长,点击等待就好。
如果现有的报表数据集是明细数据,也可以从当前数据集进行导入,此步可跳过。
图片1.png

创建自助数据集

点击自助数据集。
image.png
根据步骤选择你需要导入的表,可以直接从数据连接中选择数据源,也可以基于现有的数据集。一般我们会选择直接从Hive库中加载数据到MPP。
图片2.png
第一次加载时选择全量抽取,其他保持默认选择即可,然后点击立即抽取。
image.png
保存数据集到对应的目录下即可,为了区分数据是否在MPP高速缓存库下,建议可以数据集命名时,增加MPP_前缀以和报表数据集做区分。
图片3.png
保存完成后,数据会开始抽取,右上角会显示抽取时间,结束后显示同步完成。在对应的目录下,就可以找到刚刚自定义的数据集。
图片4.png
要注意的是,默认情况下,在立即抽取完成后,系统会自动设置定时抽取。如果不需要定时抽取,则要在设置定时抽取界面里,取消勾选如下选项。
image.png

开始透视分析

右键新建分析,选择透视分析就可以和往常一样进行透视分析了,会发现统计计算的速度要比基于Mysql的分析快很多。Enjoy!
图片5.png
image.png

相关文章
|
SQL Oracle 关系型数据库
|
3月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
68 0
|
18天前
|
消息中间件 关系型数据库 MySQL
ClickHouse如何整合数据源:MySQL、HDFS...
ClickHouse 是一个强大的列式数据库管理系统,支持多种数据源。常见的数据源包括外部数据源(如 HDFS、File、URL、Kafka 和 RabbitMQ)、数据库(如 MySQL 和 PostgreSQL)和流式数据(如 Stream 和 Materialized Views)。本文介绍了如何从 MySQL 和 HDFS 读取数据到 ClickHouse 中,包括创建数据库、映射表和查询数据的具体步骤。通过这些方法,用户可以方便地将不同来源的数据导入 ClickHouse 进行高效存储和分析。
43 3
|
2月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
233 14
|
3月前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
2月前
|
SQL 监控 物联网
ClickHouse在物联网(IoT)中的应用:实时监控与分析
【10月更文挑战第27天】随着物联网(IoT)技术的快速发展,越来越多的设备被连接到互联网上,产生了海量的数据。这些数据不仅包含了设备的状态信息,还包括用户的使用习惯、环境参数等。如何高效地处理和分析这些数据,成为了一个重要的挑战。作为一位数据工程师,我在一个物联网项目中深入使用了ClickHouse,以下是我的经验和思考。
117 0
|
2月前
|
消息中间件 存储 SQL
ClickHouse实时数据处理实战:构建流式分析应用
【10月更文挑战第27天】在数字化转型的大潮中,企业对数据的实时处理需求日益增长。作为一款高性能的列式数据库系统,ClickHouse 在处理大规模数据集方面表现出色,尤其擅长于实时分析。本文将从我个人的角度出发,分享如何利用 ClickHouse 结合 Kafka 消息队列技术,构建一个高效的实时数据处理和分析应用,涵盖数据摄入、实时查询以及告警触发等多个功能点。
116 0
|
7月前
|
DataWorks API 调度
DataWorks产品使用合集之在调度配置配置了节点的上游节点输出,没办法自动生成这个flow的依赖,该怎么操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
DataWorks 安全 关系型数据库
DataWorks产品使用合集之建了 polar 与clickhouse的数据源。为什么数据库这里总是mysql呢
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
存储 SQL 运维
OLAP数据库选型指南:Doris与ClickHouse的深入对比与分析
OLAP数据库选型指南:Doris与ClickHouse的深入对比与分析

热门文章

最新文章