实时数仓实战|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 快速学习实时数仓实战

开发者学堂课程【实时数仓 Hologres 实战课程实时数仓实战】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/904/detail/14390


实时数仓实战


目录:

一、Hologres 生态

二、Hologres 实时导入接口介绍

三、Hologres 实时读写场景介绍

四、Demo 演示


介绍如何使用 Flink 和 Hologres,实现可扩展的、高效的、云原生的实时数仓


—、Hologres 生态介绍

image.png

Dataworks 数据集成支持输入

. Mysql Binlog

. Oracle CDC.

Datahub

- Kafka.

PolarDB

 

二、Hologres 实时导入接口介绍

Hologres 实时导入接口

·行存&列存都支持

·支持根据主键去重(Exactly once)·

支持整行数据局部更新

·导入即可见,毫秒级延迟

·单 Core 2W+ RPS(TPCH PartSupp 表)·

性能随资源线性扩展

·支持分区表写入

Hologres 实时导入实现原理

 image.png

image.png

·一张表的数据分布在多个 Shard 上

·一条记录只会属于一个 Shard

·根据 Distribution key 属性进行 Hash

 image.png

·Log Structured Merge Tree(LSM)

·全异步框架,协程(Coroutine)·

·基于 Masstree 的 Memtable

Optimized SQL

- Insert into values

- Insert into on conflict do update.

Select from where pk = xxx.

Coming soon

 

三、Hologres 实时写入场景介绍实时写入场景

·Append Only (日志)

·按主键去重

·按主键更新

create table randomSource (a int, b VARCHAR,c VARCHAR,d DOUBLE,eBIGINT)

create table test {

a int,

b VARCHAR,

c VARCHAR,

PRIMARY KEY (a)

} with {

type = "hologres',

‘endpoint’ - '$ip:Sport', //当前Hologres实时数据API的VPC网络地址以及端口号。

’usernane’='当前阿里云账号的AccessKey ID',

‘pasaword’='当前阿里云账号的AcceasEey secret ',

‘dbName=’当前Hologres的数据库名称’,

‘tableNama’ - 'blink test'//当前Hologres接收数据的表名称。

};

insert

into test

select

a,b,c

from

randomSource;

Blink Sql

实时宽表 Merge 场景

image.png

image.png

实时维表 Join 场景

·行存表

·Blink/Flink

·替换 HBase

CREATF TABLE src{

a INT,

b BIGINT,

c STRTNG,

" prac_time’ AS PROCTIMEI }

) with(l

‘ connector’ - " datagen"

);

9

crcate table din {

a int,

b VARCHAR,

c VARCHAR,

PRIMARY KEY <a,b>,PERIDD FOR SYSTEN_TIME

) wlth (

‘connector' =’ hologres',

);

CREATE TABLE print_sink(

a INT

b STRING

)with(

‘connector' = " print"

);

insert into print_sink select T,a,M.b

FROM src AS T JOIN dir FOR SYSTHM_TINE AS OF T.proctine " +

AS H CN T.a - H.na"

Flink 1.11

Hologres Binlog 场景

·以消息队列方式读取 Hologres 数据 Change log

·Binlog系统字段

·hg_binglog_lsn

hg_binglog_event_type

hg_binglog_timestamp_us

Flink 实时导入 Hologres Demo

image.png 

Mysql Binlog 实时同步 Hologres Demo

 image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
目录
打赏
0
0
0
0
55
分享
相关文章
滴滴出行大数据数仓实战
滴滴出行大数据数仓实战
331 0
滴滴出行大数据数仓实战
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
1352 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
Dataphin离线数仓搭建深度测评:数据工程师的实战视角
作为一名金融行业数据工程师,我参与了阿里云Dataphin智能研发版的评测。通过《离线数仓搭建》实践,体验了其在数据治理中的核心能力。Dataphin在环境搭建、管道开发和任务管理上显著提效,如测试环境搭建从3天缩短至2小时,复杂表映射效率提升50%。产品支持全链路治理、智能提效和架构兼容,帮助企业降低40%建设成本,缩短60%需求响应周期。建议加强行业模板库和移动适配功能,进一步提升使用体验。
实时数仓Kappa架构:从入门到实战
【11月更文挑战第24天】随着大数据技术的不断发展,企业对实时数据处理和分析的需求日益增长。实时数仓(Real-Time Data Warehouse, RTDW)应运而生,其中Kappa架构作为一种简化的数据处理架构,通过统一的流处理框架,解决了传统Lambda架构中批处理和实时处理的复杂性。本文将深入探讨Kappa架构的历史背景、业务场景、功能点、优缺点、解决的问题以及底层原理,并详细介绍如何使用Java语言快速搭建一套实时数仓。
716 4
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
217 0
从理论到实践,实时湖仓功能架构设计与落地实战
实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 Flink Catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。
386 0
直播预约丨《实时湖仓实践五讲》第二讲:实时湖仓功能架构设计与落地实战
《实时湖仓实践五讲》是袋鼠云打造的系列直播活动,将围绕实时湖仓的建设趋势和通用问题,邀请奋战于企业数字化一线的核心产品&技术专家,结合实践案例分析,和听众共同探讨实时湖仓领域的前沿技术。 《实时湖仓实践五讲》第二讲——《实时湖仓功能架构设计与落地实战》将于10月11日 15:00-16:00开播。 快快预约直播吧~
85 0
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——一、产品概述
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——一、产品概述
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——二、产品架构及原理
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——二、产品架构及原理