Hologres 数据导入/导出实践|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习 Hologres 数据导入/导出实践

开发者学堂课程【《实时数仓入门课程》Hologres 数据导入/导出实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13891


Hologres 数据导入/导出实践


内容简介:

一、Hologres 生态

二、Hologres 实时读写接口介绍

三、Hologres 实时读写场景介绍

四、Demo 演示

五、常见问题和未来展望

 

一、Hologres 生态

image.png

Dataworks 数据集成支持输入

l Mysql Binlog

l SQLServer CDC

l Oracle CDC

l PolarDB

l Kafka

l Datahub

 

二、Hologres 实时读写接口介绍

(1)Hologres 实时读写实现原理

图片41.png

(2)Fixed Plan

l Insert into table values ()

l Insert into table values ()on conflict do update

l Select * from table where pk = XXX

l Delete from table where pk = XXX

图片42.png

l Log Stuctured Merge Teel(LSM)

l Append Only

l 全异步框架,协程(Coroutine)

 

(3)Holo-client

基于Jdbc实现,对读写holo最佳实践的封装,可以减轻数据集成开发工作量

 

数据写入

l 攒批,基于 jdbc reWriteBatchedlInserts 的 实现原理

l 数据合并,相同主键的 INSERT/DELETE 在一个批次中会合并减少请求量

l 自动提交,支持基于批行数、批字节大小和最长提交间隔自动提交

数据点查

l 提供异步点查接口

l QPS 高时自动转入攒批模式

数据 Copy

l 提供并发 Copyln 的简易接口

异常处理

l 对 holo 返回异常归类,正确在 holo 升级、扩容等场景下重试等待实例恢复


三、Hologres 实时读写场景介绍

(1)实时写入场景

l 行存&列存都支持

l 支持根据主键去重 (Exactly once)

l 支持整行数据局部更新

l 导入即可见,毫秒级延迟

l 单 Core 2W+ RPS (TPCH PartSupp 表)

l 性能随资源线性扩展

(2)实时宽表 Merge 场景

图片43.png

(3)实时维表 Join 场景

l 建议使用行存表

l Flink

l 替换 HBase

(4)Hologres Binlog 场景

l 实时消费 Hologres 单表的 Change log

l 支持Flink 的 CDC Source,能实现表的实时镜像同步

l Flink+Hologres,实现 ODS 到 DWD 表的实时 ETL

 

四、Demo 演示

l Flink 实时读写 Hologres Demo


五、常见问题及未来展望

(1)Flink Hologres Connector 常见问题

Q:作业启动失败,无法连接 Hologres

A: Hologres 实例需要与 Flink 集群在同- Region 且使用 VPC Endpoint

 

Q:实时写入结果表数据不符合预期

A:通常是由回撤引起,需要正确设置 ignoreDelete 参数

 

Q:实时写入性能慢

A:当前高 QPS 场景的列存表局部更新开销较大,建议换成整行更新或者行存写入

 

Q:维表查询性能较差,且 Hologres 实例 CPU 负载高

A:通常是由于使用了列存表作为维表,建议切换至行存表

 

Q:实时消费 Binlog 报错

A:通常是由于表没有开启 Binlog 导致,需要重建表

 

(2)未来展望

l Flink One -To- Many 维表 Join

l 基于JDBC实时消费 Hologres Binlog

l Dataworks 数据集成实时消费 Hologres Binlog

l 无连接限制的 SQL 读写

相关链接

l https://github.com/aliyun/alibabacloud-hologres-connectors

l https://github.com/hologres/holo-client

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
3月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
1月前
|
存储 弹性计算 运维
Hologres计算组实例&分时弹性入门实践
本文整理自 Hologres 产品团队的观秋老师关于Hologres 计算组实例&分时弹性入门实践的分享。内容主要为以下三部分: 1. Hologres 计算组实例介绍 2. 计算组实例入门实践 3. 分时弹性入门实践
63 16
|
1月前
|
DataWorks 关系型数据库 OLAP
云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析
本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
3月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
4月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
328 0
|
5月前
|
存储 安全 网络安全
Hologres 的安全性和数据隐私保护
【9月更文第1天】随着数据量的不断增长和对数据价值的认识加深,数据安全和隐私保护成为了企业和组织不可忽视的重要议题。Hologres 作为一款高性能的实时数仓产品,在设计之初就将安全性置于核心地位。本文将深入探讨 Hologres 在保障数据安全和隐私方面的措施,包括数据加密、访问控制以及如何满足各类数据保护法规的要求。
88 3
|
5月前
|
消息中间件 Java 数据库连接
Hologres 数据导入与导出的最佳实践
【9月更文第1天】Hologres 是一款高性能的实时数仓服务,旨在提供快速的数据分析能力。无论是从外部数据源导入数据还是将数据导出至其他系统,都需要确保过程既高效又可靠。本文将详细介绍如何有效地导入数据到 Hologres 中,以及如何从 Hologres 导出数据。
216 1
|
4天前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
336 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
1月前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
406 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

热门文章

最新文章