Hologres 数据导入/导出实践|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 快速学习 Hologres 数据导入/导出实践

开发者学堂课程【《实时数仓入门课程》Hologres 数据导入/导出实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13891


Hologres 数据导入/导出实践


内容简介:

一、Hologres 生态

二、Hologres 实时读写接口介绍

三、Hologres 实时读写场景介绍

四、Demo 演示

五、常见问题和未来展望

 

一、Hologres 生态

image.png

Dataworks 数据集成支持输入

l Mysql Binlog

l SQLServer CDC

l Oracle CDC

l PolarDB

l Kafka

l Datahub

 

二、Hologres 实时读写接口介绍

(1)Hologres 实时读写实现原理

图片41.png

(2)Fixed Plan

l Insert into table values ()

l Insert into table values ()on conflict do update

l Select * from table where pk = XXX

l Delete from table where pk = XXX

图片42.png

l Log Stuctured Merge Teel(LSM)

l Append Only

l 全异步框架,协程(Coroutine)

 

(3)Holo-client

基于Jdbc实现,对读写holo最佳实践的封装,可以减轻数据集成开发工作量

 

数据写入

l 攒批,基于 jdbc reWriteBatchedlInserts 的 实现原理

l 数据合并,相同主键的 INSERT/DELETE 在一个批次中会合并减少请求量

l 自动提交,支持基于批行数、批字节大小和最长提交间隔自动提交

数据点查

l 提供异步点查接口

l QPS 高时自动转入攒批模式

数据 Copy

l 提供并发 Copyln 的简易接口

异常处理

l 对 holo 返回异常归类,正确在 holo 升级、扩容等场景下重试等待实例恢复


三、Hologres 实时读写场景介绍

(1)实时写入场景

l 行存&列存都支持

l 支持根据主键去重 (Exactly once)

l 支持整行数据局部更新

l 导入即可见,毫秒级延迟

l 单 Core 2W+ RPS (TPCH PartSupp 表)

l 性能随资源线性扩展

(2)实时宽表 Merge 场景

图片43.png

(3)实时维表 Join 场景

l 建议使用行存表

l Flink

l 替换 HBase

(4)Hologres Binlog 场景

l 实时消费 Hologres 单表的 Change log

l 支持Flink 的 CDC Source,能实现表的实时镜像同步

l Flink+Hologres,实现 ODS 到 DWD 表的实时 ETL

 

四、Demo 演示

l Flink 实时读写 Hologres Demo


五、常见问题及未来展望

(1)Flink Hologres Connector 常见问题

Q:作业启动失败,无法连接 Hologres

A: Hologres 实例需要与 Flink 集群在同- Region 且使用 VPC Endpoint

 

Q:实时写入结果表数据不符合预期

A:通常是由回撤引起,需要正确设置 ignoreDelete 参数

 

Q:实时写入性能慢

A:当前高 QPS 场景的列存表局部更新开销较大,建议换成整行更新或者行存写入

 

Q:维表查询性能较差,且 Hologres 实例 CPU 负载高

A:通常是由于使用了列存表作为维表,建议切换至行存表

 

Q:实时消费 Binlog 报错

A:通常是由于表没有开启 Binlog 导致,需要重建表

 

(2)未来展望

l Flink One -To- Many 维表 Join

l 基于JDBC实时消费 Hologres Binlog

l Dataworks 数据集成实时消费 Hologres Binlog

l 无连接限制的 SQL 读写

相关链接

l https://github.com/aliyun/alibabacloud-hologres-connectors

l https://github.com/hologres/holo-client

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
Hologres实时数仓在B站游戏的建设与实践
本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求,采用了Hologres作为核心组件优化传统Lambda架构,实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计(ODS、DWD、DIM、ADS)及关键技术挑战的解决方法,如高QPS点查、数据乱序重写等。目前,该实时数仓已广泛应用于运营分析、广告投放等多个场景,并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。
Hologres实时数仓在B站游戏的建设与实践
Hologres实时湖仓能力入门实践
本文由武润雪(栩染)撰写,介绍Hologres 3.0版本作为一体化实时湖仓平台的升级特性。其核心能力包括湖仓存储一体、多模式计算一体、分析服务一体及Data+AI一体,极大提升数据开发效率。文章详细解析了两种湖仓架构:MaxCompute + Hologres实现离线实时一体化,以及Hologres + DLF + OSS构建开放湖仓架构,并深入探讨元数据抽象、权限互通等重点功能,同时提供具体使用说明与Demo演示。
Hologres计算组实例&分时弹性入门实践
本文由骆撷冬(Hologres PD)撰写,围绕Hologres计算组实例与分时弹性的入门实践展开。内容分为三部分:第一部分介绍Hologres计算组实例的原理与架构,解决负载隔离、资源浪费、大任务和运维难题;第二部分演示计算组实例的入门实践,包括管理、授权、连接及监控等操作;第三部分讲解分时弹性的使用,涵盖配置方法、成本优化及监控告警。通过具体案例与操作步骤,帮助用户更好地理解和应用Hologres的弹性计算能力。
抖音集团电商流量实时数仓建设实践
本文基于抖音集团电商数据工程师姚遥在Flink Forward Asia 2024的分享,围绕电商流量数据处理展开。内容涵盖业务挑战、电商流量建模架构、流批一体实践、大流量任务调优及总结展望五个部分。通过数据建模与优化,实现效率、质量、成本和稳定性全面提升,数据质量达99%以上,任务性能提升70%。未来将聚焦自动化、低代码化与成本优化,探索更高效的流批一体化方案。
77 11
抖音集团电商流量实时数仓建设实践
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
305 1
Flink CDC + Hologres高性能数据同步优化实践
Hologres计算组实例&分时弹性入门实践
本文整理自 Hologres 产品团队的观秋老师关于Hologres 计算组实例&分时弹性入门实践的分享。内容主要为以下三部分: 1. Hologres 计算组实例介绍 2. 计算组实例入门实践 3. 分时弹性入门实践
117 16
云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析
本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等