开源 OLAP 迁移 HSAP 实战(二)|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习开源 OLAP 迁移 HSAP 实战(二)

开发者学堂课程【实时数仓 Hologres 实战课程开源 OLAP 迁移 HSAP 实战(】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/904/detail/14392


开源 OLAP 迁移 HSAP 实战(二)


七、ClickHouse 简介及应用场景

ClickHouse :

自带存储引擎,支持实时数据,并提供亚秒级查询,C++ 实现的 OLAP 分 布式列式数据库

适用场景∶

1.海量明细数据存储

2.单表聚合类查询

3.写入可见性/一致性要求不高

不适用场景

1.高 QPS 查询

2.高 QPS 更新

3.需要 join 的场景


八、ClickHouse 迁移 Hologres 实践

数据写入链路迁移

image.png 常见实时数仓写入链路如上图,通过Flink将实时日志数据写入到实时数仓系统中。

增量数据迁移

Hologres 紧密结合 Flink 生态,如果客户之前是通过 Flink 来向 ClickHouse 灌入实时数据

那么通过集成 Hologres ,Connector,可以方便地将数据导入 Hologres,将增量数据迁移过来。

存量数据迁移

由于 DataX 等插件,暂不支持 ClickHouse Reader。如果已经在 ClickHouse 中存储了存量数据,需要搬迁至 Hologres,目前可以用 ClickHouse -> COPY OUT -> Data File -> COPY IN ->Hologres 的链路,需要确定好字符集、分隔符和 NULL 标记等规范

 

九、ClickHouse 迁移 Hologres 实践-数据模型

 

ClickHouse

Hologres

DB

create database xx

create database xx

Table Group/Shard

对所有的<SHARD> , <REPLICA>:ENGINE= Replicated MergeTree( " /path/to','clusterO1-<SHARD>-<REPLICA> "dt,(cmd,dt,log_timestamp) 8192)

—键设置

begin;

create table xo (a int);

Call

set_table _property’( ‘xx ', ‘shard_count". "100’);

commit;

TABLE

create table xx (a int) ENGINE=

engine

无需engine设置

默认列存

默认死存,支持行存

表级TTL

表级TTL

COLUMN

列级TTL

不支持

 

CONSTRAINT

支持primary key., default , not null等

VIEW

支持Materialized view

支持VlEwW,不支持Materialized view

 

十、ClickHouse 迁移 Hologres 实践- DDL

ClickHouse

CREATE TABLE test (

`a`Int64 DEFAULT CAST(O, "Int64'),

`b`Float64 DEFAULT O.,

'c' String DEFAULT ".

‘d’ DateTime DEFAULT CAST('0o00-00-00 00:00:00",'DateTime'),

) ENGINE = ReplicatedMergeTree(' /clickhouse/tables/{layer}-(shard}/test', "(replica}')

PARTITION BY formatDateTime(d, '%D")

ORDER BY d

SETTINGS index_granularity = 8192;

Hologres

BEGIN;

CREATE TABLE test (

a bigint DEFAULT 0,

b double precision DEFAULT 0

c text DEFAULT ",

d timestamptz DEFAULT O.

);

CALL set_table_property('test', 'clustering_key", 'd'); --聚簇列(段内排序列),与 ClickHouse 的 ORDER BY 类似

CALL set_table_property('‘test , 'segment_key’ , d )

--分段列,与 ClickHouse 的 PARTITOIN BY 类似,注: PARTITION 多的表,也可以改造成 Holo 的分区表

CALL set_table_property('test", 'bitmap_columns', 'c');

-- bitmap 索引

CALL set_table_property('test,'shard_count', "100');

shard_count 根据数据量而定

COMMIT;

 

十一、ClickHouse 迁移 Hologres 实践-查询

 

 

ClickHouse

Hologres

ldendifier quote

”,“””支持反引号,双引号

“”支持双引号

QUANTILE

quantile(level)(expr)

approx_percentile(level)

WITHGROUP (ORDER BY expr)

quantileDeterministic(level)

(expr, determinator)

--

quantileExact(level)(expr)

percentile_cont(level)

WITHGROUP (ORDER BY expr)

DISTINCT

uniq(x)

uniqCombined(x)

uniqCombined64(x)

uniqHLL12(x)

approx_count_distinct(x)

uniqExact(x)

count (distinct x)

WINDOW

不支持

支持(参考PG或Holo官方文档)

JOIN

支持

支持(参考PG或Holo官方文档)

 

十二、Hologres 升级–客户案例

阿里集团-搜索推荐业务

KVStore : Redis/Mysql/Hbase/Cassandra 存储能力

交互式计算能力:Presto/Drill 计算能力

实时数仓:Clickhouse/Druid 存诸+计算

 image.png

image.png

HSAP : Hybrid Serving/Analytical Processing

 

指标

Druid

Hologres

资源

-

节省60%

平均查询性能

300ms

复杂查询100ms,点查询5ms

写入可见性

5s

<1ms

写入QPS

千万

1.3亿

查询量

千万

1.5亿

开发周期

小时

 

公共云-某社交网站客户

 

指标

CilckHouse

Hologres

资源

1320core

1024core

存储

只能存7天

无限制

复杂查询

只能查3天

7-15

实时写入QPS

<30k/s

>40k/s

写入可见性

秒级

毫秒级

查询性能

-

提升2-5倍

 

公共云-某游戏客户

 

指标

Redis/Faiss

Hologres

成本

-

节省50%

扩展性

单机

分布式

复杂查询

不支持

支持

学习成本

业务耦合度

易用性

 

十三 、新一代技术理念HSAP:服务、分析一体化

Hybrid ServingiAnalytical Processing

image.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
12月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
594 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
263 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
SQL 分布式计算 HIVE
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
|
SQL 消息中间件 分布式计算
开源湖仓一体平台(一):LakeSoul
开源湖仓一体平台(一):LakeSoul
|
关系型数据库 OLAP 分布式数据库
PolarDB 开源版通过 duckdb_fdw 支持 parquet 列存数据文件以及高效OLAP
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版通过duckdb_fdw 支持 parquet 列存...
1201 0
|
3月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
14天前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
108 0
|
2月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
3月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。

热门文章

最新文章