【实践】基于Hologres+Flink搭建GitHub实时数据查询

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。

以GitHub公开事件数据为例,通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具,实现海量数据实时分析的通用架构与核心步骤。

搭建实时数仓时,Flink可对待处理数据进行实时清洗,完成后Hologres可直接读取Flink中的数据,示例架构如图所示。
image.png

一、创建专有网络VPC和交换机

登录专有网络管理控制台,单击专有网络。
image.png

在创建专有网络页⾯,根据下方参数说明配置1个专有网络(VPC)和2台交换机,然后单击确定。
image.png
image.png
image.png

二、创建实时数仓Hologres

image.png

在实例列表页面,等待运行状态变为运行正常,即可正常使用。
image.png

三、创建对象存储OSS

登录对象存储OSS控制台,单击Bucket列表。
image.png

四、创建实时计算Flink

先领取资源抵扣包
image.png

购买Flink实例
image.png

image.png

在实时计算控制台Flink全托管页签,刷新页面查看工作空间状态,当工作空间状态为运行中时,即可进入下一步。
image.png

五、创建Hologres内部表

1、在实例详情页面,单击登录实例,进入HoloWeb
image.png

2、在元数据管理页签,单击新建库
image.png

3、在SQL编辑器页面,单击左上⻆的image图标,新建SQL查询。
image.png

六、通过Flink实时写入数据至Hologres

1、选择运维中心 > Session管理。在Session集群页面,单击创建Session集群。
image.png

image.png
image.png

2、在集群总览页签,当Session集群状态(页面上方集群名称旁边)从启动中变为运行中。
image.png

3、创建SQL作业。在左侧导航栏,选择数据开发 > ETL
image.png
image.png
image.png
image.png

4、在作业页面右上角,单击部署。

image.png
image.png
image.png

5、在作业运维页面,单击目标作业右侧操作列下的启动。
image.png

image.png

状态变为运行中时,表示您成功启动作业。
image.png

七、查询实时数据

1、切换至Hologres的SQL编辑器页签。

2、在Hologres中通过内部表查询今日最活跃项目。

在临时Query查询页签,执行如下命令,查询今日最活跃项目。

SELECT
    repo_name,
    COUNT(*) AS events
FROM
    hologres_dataset_github_event.hologres_github_event
WHERE
    created_at >= CURRENT_DATE
GROUP BY
    repo_name
ORDER BY
    events DESC
LIMIT 5;

image.png

八、清理资源

1、登录实时计算控制台

在页面顶部菜单栏中,地域切换至华东2(上海),然后选择目标工作空间右侧操作列下的更多 > 释放资源。
image.png

image.png

2、登录Hologres控制台

在页面右上角,地域切换至华东2(上海),然后在左侧导航栏中,单击实例列表。
image.png

image.png

image.png

image.png

3、登录对象存储OSS控制台。删除Bucket。
image.png
image.png
image.png

4、登录AccessKey管理。删除阿里云AccessKey。先禁用再删除。
image.png
image.png

5、登录专有网络,删除VPC及交换机。先删除交换机再删除VPC。
image.png

image.png

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
1天前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
3天前
|
流计算
新 基于Flink+Hologres搭建GitHub实时数据屏 领好礼
新 基于Flink+Hologres搭建GitHub实时数据屏 领好礼
24 0
|
3月前
|
存储 SQL Java
实时数仓 Hologres产品使用合集之如何使用Flink的sink连接
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
6月前
|
分布式计算 调度 MaxCompute
实时计算 Flink版产品使用合集之maxcompute更新写入如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
分布式计算 数据处理 MaxCompute
实时计算 Flink版产品使用合集之进行实时处理时,是否需要将所有数据导入到Hologres
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
SQL 运维 关系型数据库
Flink+Hologres搭建实时数仓
该方案利用Flink和Hologres构建实时数仓,解决传统数仓中间层查询困难、数据不可复用和架构冗余的问题。Flink负责数据源接入和加工,将数据写入Hologres的ODS、DWD和DWS层。Hologres支持高效更新和查询,各层数据可直接服务,简化架构,提高效率。方案具备高性能(Flink与Hologres深度集成,支持实时写入查询)、高可用(主从实例确保服务稳定)和低运维(全链路Flink SQL,减少运维成本)优势。适用于实时报表、推荐系统和业务监控等场景。
119 4
|
6月前
|
消息中间件 Java Kafka
实时计算 Flink版产品使用合集之可以将数据写入 ClickHouse 数据库中吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
226 1
|
6月前
|
JSON 关系型数据库 MySQL
实时计算 Flink版产品使用合集之如何一次同步多个库
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
canal NoSQL 关系型数据库
实时计算 Flink版产品使用合集之如何在ElasticSearch中查看同步的数据
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL 关系型数据库 MySQL
基于阿里云 Flink+Hologres 搭建实时数仓
本文为您介绍如何通过实时计算 Flink 版和实时数仓 Hologres 搭建实时数仓。
2266 0
基于阿里云 Flink+Hologres 搭建实时数仓