实时数仓实战|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 快速学习实时数仓实战

开发者学堂课程【实时数仓 Hologres 实战课程实时数仓实战】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/904/detail/14390


实时数仓实战


目录:

一、Hologres 生态

二、Hologres 实时导入接口介绍

三、Hologres 实时读写场景介绍

四、Demo 演示


介绍如何使用 Flink 和 Hologres,实现可扩展的、高效的、云原生的实时数仓


—、Hologres 生态介绍

image.png

Dataworks 数据集成支持输入

. Mysql Binlog

. Oracle CDC.

Datahub

- Kafka.

PolarDB

 

二、Hologres 实时导入接口介绍

Hologres 实时导入接口

·行存&列存都支持

·支持根据主键去重(Exactly once)·

支持整行数据局部更新

·导入即可见,毫秒级延迟

·单 Core 2W+ RPS(TPCH PartSupp 表)·

性能随资源线性扩展

·支持分区表写入

Hologres 实时导入实现原理

 image.png

image.png

·一张表的数据分布在多个 Shard 上

·一条记录只会属于一个 Shard

·根据 Distribution key 属性进行 Hash

 image.png

·Log Structured Merge Tree(LSM)

·全异步框架,协程(Coroutine)·

·基于 Masstree 的 Memtable

Optimized SQL

- Insert into values

- Insert into on conflict do update.

Select from where pk = xxx.

Coming soon

 

三、Hologres 实时写入场景介绍实时写入场景

·Append Only (日志)

·按主键去重

·按主键更新

create table randomSource (a int, b VARCHAR,c VARCHAR,d DOUBLE,eBIGINT)

create table test {

a int,

b VARCHAR,

c VARCHAR,

PRIMARY KEY (a)

} with {

type = "hologres',

‘endpoint’ - '$ip:Sport', //当前Hologres实时数据API的VPC网络地址以及端口号。

’usernane’='当前阿里云账号的AccessKey ID',

‘pasaword’='当前阿里云账号的AcceasEey secret ',

‘dbName=’当前Hologres的数据库名称’,

‘tableNama’ - 'blink test'//当前Hologres接收数据的表名称。

};

insert

into test

select

a,b,c

from

randomSource;

Blink Sql

实时宽表 Merge 场景

image.png

image.png

实时维表 Join 场景

·行存表

·Blink/Flink

·替换 HBase

CREATF TABLE src{

a INT,

b BIGINT,

c STRTNG,

" prac_time’ AS PROCTIMEI }

) with(l

‘ connector’ - " datagen"

);

9

crcate table din {

a int,

b VARCHAR,

c VARCHAR,

PRIMARY KEY <a,b>,PERIDD FOR SYSTEN_TIME

) wlth (

‘connector' =’ hologres',

);

CREATE TABLE print_sink(

a INT

b STRING

)with(

‘connector' = " print"

);

insert into print_sink select T,a,M.b

FROM src AS T JOIN dir FOR SYSTHM_TINE AS OF T.proctine " +

AS H CN T.a - H.na"

Flink 1.11

Hologres Binlog 场景

·以消息队列方式读取 Hologres 数据 Change log

·Binlog系统字段

·hg_binglog_lsn

hg_binglog_event_type

hg_binglog_timestamp_us

Flink 实时导入 Hologres Demo

image.png 

Mysql Binlog 实时同步 Hologres Demo

 image.png

相关实践学习
基于Hologres+PAI+计算巢,5分钟搭建企业级AI问答知识库
本场景采用阿里云人工智能平台PAI、Hologres向量计算和计算巢,搭建企业级AI问答知识库。通过本教程的操作,5分钟即可拉起大模型(PAI)、向量计算(Hologres)与WebUI资源,可直接进行对话问答。
相关文章
|
2月前
|
SQL 分布式计算 数据可视化
滴滴出行大数据数仓实战
滴滴出行大数据数仓实战
177 0
滴滴出行大数据数仓实战
|
2月前
|
关系型数据库 MySQL BI
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
1098 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
|
9月前
|
SQL 存储 分布式计算
数仓 Hive HA 介绍与实战操作
数仓 Hive HA 介绍与实战操作
|
25天前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
|
25天前
|
消息中间件 分布式计算 Hadoop
大数据实战项目之电商数仓(一)
大数据实战项目之电商数仓(一)
|
9月前
|
SQL 消息中间件 存储
从理论到实践,实时湖仓功能架构设计与落地实战
实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 Flink Catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。
175 0
|
9月前
|
大数据 数据挖掘 数据处理
直播预约丨《实时湖仓实践五讲》第二讲:实时湖仓功能架构设计与落地实战
《实时湖仓实践五讲》是袋鼠云打造的系列直播活动,将围绕实时湖仓的建设趋势和通用问题,邀请奋战于企业数字化一线的核心产品&技术专家,结合实践案例分析,和听众共同探讨实时湖仓领域的前沿技术。 《实时湖仓实践五讲》第二讲——《实时湖仓功能架构设计与落地实战》将于10月11日 15:00-16:00开播。 快快预约直播吧~
41 0
|
存储 SQL Cloud Native
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——一、产品概述
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——一、产品概述
|
存储 SQL 弹性计算
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——二、产品架构及原理
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——二、产品架构及原理
|
SQL JSON Cloud Native
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)

热门文章

最新文章