云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。

本文是基于 Hologres 轻量实时的高性能 OLAP 分析的实践。

在云起实验室里点击进入实操。

image.png

看到左侧是实验手册,右侧是管控台入口,左侧是这次实验设计用到的一些产品,按照实验步骤逐一操作就可以。

image.png

首先需要创建一些专有网络 VPC 和交换机,在专有网络的控制台,按照实验步骤创建专有网络,专有网络可以按照实验的教程,创在上海的可用区 E,后续建立一些合作实例也在上海的可用区 E,这样网络能实现联通,创建完成 VPC 网络和交换机。

image.png

接下来开通 Hologres 实例,如果有免费试用,可以直接点击领取 Hologres 的免费试用,如果没有免费试用,可以去 Hologres 购买页开通按量付费,选择通用型,上海,可用区 E,也是 VPC 和交换机的可用区,一般开 32 核的实例使用。

image.png

可以看到刚才建的交换机和 VPC 信息在这里出现。然后创建服务关联角色。实例的名称可以输Hologres,如果按量付费,大概 11 块左右一个小时。按照正常的流程开通下单就可以。

image.png

开通完 Hologres 后,接下来开通 DataWorks,在 DataWorks 购买页,选择上海的 Region,没有可用区的限制。需要勾选  DataWorks 的资源组,资源组会用来做实时同步,然后给资源组备注名称,刚才创建的专业网络和交换机都在这里,服务关联角色也创建,支付一下就可以把 DataWorks 开通。

image.png

接下来要创建网关,一会通过 DataWorks 连接公网的数据源,在网关的控制台,在上海区域,梳理一下实例的名称,新购公网的弹性 IP。创建角色后刷新一下。把公网的网关开通,刚才是各种各样的配置,开通之后能看到网关相关的信息。

image.png

接下来是正式的实验操作流程,先去 Hologres 控制台,然后点击登录实例,进入 Hologres 的管控台,在管控台需要新建一个 Hologres 的数据库来存放需要同步的数据。新建数据库的名称,在  DataWorks 添加数据源时会用到。数据库新建完成后,需要建表。 image.png

把这段 SQL 复制到 SQL 编辑器,选刚才创建的数据库运行。

image.png

Hologres 里把表建好,后面需要把数据写到表,需要在 DataWorks 里操作。

image.png

进入管理中心,到管理中心的 DataWorks 工作空间,把数据源绑到 DataWorks 上。提供一个公网的 RDS,里面有实时更新的数据。 image.png

把数据源的一些信息粘贴到里面。把 MySQL 的数据库添加进来。

image.png

添加完 MySQL 的数据源,要创建 Hologres 数据源,在刚才的界面新增数据源,选择 Hologres。名称已经创建。创建后端数据库,测一下联通性,两边都可以联通,两个数据源创建完成。

image.png

接下来要创建实时同步的任务,到数据集成的产品页面。选择同步任务,来源是 MySQL,去向是 Hologres,开始创建。

image.png

MySQL 数据源选择刚才创建的,Hologres 选刚才创建的 Hologres,资源组是刚才创建的 DataWorks 资源组。占用选 2cu3cu 可以自己确定,基本是按量付费,实时同步任务至少 2cu,先设置4cu,然后测联通性,基本上联通性都可以联通。

image.png

创建后把实验所需的表导过来,导过来后批量刷新映射,然后把目标的 Scheme名改成刚才 hologres_dataset_github_event,刷新映射之后,把 Scheme 名和目标表的名称修改,和 Hologres 里建表保持一致,完成配置。

image.png

可以启动实时同步的任务,跑起来需要运行时间,可以刷新看启动和运行的情况。

image.png

点击进去看同步的过程,因为数据源还有历史相关的数据,会先进行全量初始化,把历史的数据同步过来。数据源实时更新,会把实时的数据同步过来,实现实时的数据同步,看到整个同步的操作比较简单,把数据源配置好后,创建一个同步任务,基本上在 MySQL 中的数据就能非常快速的同步到 Hologres 里,后续在 Hologres 里完成高性能的 OLAP 分析,数据同步成功,数据基本到 Hologres 里。

image.png

然后可以按照自己写的 SQL 的方式在 Hologres 里直接查询相关的数据,运行直接能查到实时变化的更新数据。

image.png

DataV 的演示先不做,因为 DataV 后面有一些付费的操作,按照教程用自己的 AK 登录 DataV,购买 DataV 九块九的首页的专业版,可以适用 DataV 对接 Hologres 数据源的功能,已经准备好模板,只要把自己的 Hologres 数据源信息填进去,里面很多 SQL 已经预制好,很快能按照教程的流程很快把大屏搭建出来,提交最终的作品时,会确认是否开通实例,运行相关的 SQL,然后做最后获奖名单校验,最后清理资源,按照手册里各个步骤的操作,把自己的实例和资源组清理,后面就不会产生额外的计费。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
SQL 分布式计算 DataWorks
破界·融合·进化:解码DataWorks与Hologres的湖仓一体实践
基于阿里云DataWorks与实时数仓Hologres,提供统一的大数据开发治理平台与全链路实时分析能力。DataWorks支持多行业数据集成与管理,Hologres实现海量数据的实时写入与高性能查询分析,二者深度融合,助力企业构建高效、实时的数据驱动决策体系,加速数字化升级。
|
6月前
|
存储 消息中间件 OLAP
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
1400 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
471 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
7月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
728 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
7月前
|
存储 SQL 运维
中国联通网络资源湖仓一体应用实践
本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。
329 0
中国联通网络资源湖仓一体应用实践
|
3月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
284 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
4月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
4月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
6月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
下一篇
oss云网关配置