Hologres 数据导入/导出实践|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习 Hologres 数据导入/导出实践

开发者学堂课程【《实时数仓入门课程》Hologres 数据导入/导出实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13891


Hologres 数据导入/导出实践


内容简介:

一、Hologres 生态

二、Hologres 实时读写接口介绍

三、Hologres 实时读写场景介绍

四、Demo 演示

五、常见问题和未来展望

 

一、Hologres 生态

image.png

Dataworks 数据集成支持输入

l Mysql Binlog

l SQLServer CDC

l Oracle CDC

l PolarDB

l Kafka

l Datahub

 

二、Hologres 实时读写接口介绍

(1)Hologres 实时读写实现原理

图片41.png

(2)Fixed Plan

l Insert into table values ()

l Insert into table values ()on conflict do update

l Select * from table where pk = XXX

l Delete from table where pk = XXX

图片42.png

l Log Stuctured Merge Teel(LSM)

l Append Only

l 全异步框架,协程(Coroutine)

 

(3)Holo-client

基于Jdbc实现,对读写holo最佳实践的封装,可以减轻数据集成开发工作量

 

数据写入

l 攒批,基于 jdbc reWriteBatchedlInserts 的 实现原理

l 数据合并,相同主键的 INSERT/DELETE 在一个批次中会合并减少请求量

l 自动提交,支持基于批行数、批字节大小和最长提交间隔自动提交

数据点查

l 提供异步点查接口

l QPS 高时自动转入攒批模式

数据 Copy

l 提供并发 Copyln 的简易接口

异常处理

l 对 holo 返回异常归类,正确在 holo 升级、扩容等场景下重试等待实例恢复


三、Hologres 实时读写场景介绍

(1)实时写入场景

l 行存&列存都支持

l 支持根据主键去重 (Exactly once)

l 支持整行数据局部更新

l 导入即可见,毫秒级延迟

l 单 Core 2W+ RPS (TPCH PartSupp 表)

l 性能随资源线性扩展

(2)实时宽表 Merge 场景

图片43.png

(3)实时维表 Join 场景

l 建议使用行存表

l Flink

l 替换 HBase

(4)Hologres Binlog 场景

l 实时消费 Hologres 单表的 Change log

l 支持Flink 的 CDC Source,能实现表的实时镜像同步

l Flink+Hologres,实现 ODS 到 DWD 表的实时 ETL

 

四、Demo 演示

l Flink 实时读写 Hologres Demo


五、常见问题及未来展望

(1)Flink Hologres Connector 常见问题

Q:作业启动失败,无法连接 Hologres

A: Hologres 实例需要与 Flink 集群在同- Region 且使用 VPC Endpoint

 

Q:实时写入结果表数据不符合预期

A:通常是由回撤引起,需要正确设置 ignoreDelete 参数

 

Q:实时写入性能慢

A:当前高 QPS 场景的列存表局部更新开销较大,建议换成整行更新或者行存写入

 

Q:维表查询性能较差,且 Hologres 实例 CPU 负载高

A:通常是由于使用了列存表作为维表,建议切换至行存表

 

Q:实时消费 Binlog 报错

A:通常是由于表没有开启 Binlog 导致,需要重建表

 

(2)未来展望

l Flink One -To- Many 维表 Join

l 基于JDBC实时消费 Hologres Binlog

l Dataworks 数据集成实时消费 Hologres Binlog

l 无连接限制的 SQL 读写

相关链接

l https://github.com/aliyun/alibabacloud-hologres-connectors

l https://github.com/hologres/holo-client

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
155 0
|
2月前
|
存储 安全 网络安全
Hologres 的安全性和数据隐私保护
【9月更文第1天】随着数据量的不断增长和对数据价值的认识加深,数据安全和隐私保护成为了企业和组织不可忽视的重要议题。Hologres 作为一款高性能的实时数仓产品,在设计之初就将安全性置于核心地位。本文将深入探讨 Hologres 在保障数据安全和隐私方面的措施,包括数据加密、访问控制以及如何满足各类数据保护法规的要求。
60 3
|
2月前
|
消息中间件 Java 数据库连接
Hologres 数据导入与导出的最佳实践
【9月更文第1天】Hologres 是一款高性能的实时数仓服务,旨在提供快速的数据分析能力。无论是从外部数据源导入数据还是将数据导出至其他系统,都需要确保过程既高效又可靠。本文将详细介绍如何有效地导入数据到 Hologres 中,以及如何从 Hologres 导出数据。
93 1
|
3月前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
53 1
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之怎么将数据导入或写入到 Hologres
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之如何将Hologres字段转换为小写
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
SQL 分布式计算 数据库
畅捷通基于Flink的实时数仓落地实践
本文整理自畅捷通总架构师、阿里云MVP专家郑芸老师在 Flink Forward Asia 2023 中闭门会上的分享。
8313 15
畅捷通基于Flink的实时数仓落地实践
|
3月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
SQL 关系型数据库 MySQL
实时数仓 Hologres操作报错合集之Flink CTAS Source(Mysql) 表字段从可空改为非空的原因是什么
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3月前
|
SQL 关系型数据库 测试技术
实时数仓 Hologres操作报错合集之执行Flink的sink操作时出现报错,是什么原因
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。