场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析-阿里云开发者社区

场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析

2024-11-22 232

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

实时计算 Flink 版，5000CU*H 3个月

简介： 基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时，该产品还具有与其他产品联动组合的可能性，能够为企业提供更全面、更智能的数据处理和分析解决方案。

以GitHub公开事件数据为例，通过使用Flink、Hologres构建实时数仓，实现海量数据实时分析

搭建实时数仓时，Flink可对待处理数据进行实时清洗，完成后Hologres可直接读取Flink中的数据，示例架构如图所示。

一、实践步骤

1、创建专有网络VPC和交换机

登录专有网络管理控制台，单击专有网络。

在创建专有网络页⾯，根据下方参数说明配置1个专有网络（VPC）和2台交换机，然后单击确定。

2、创建实时数仓Hologres

在实例列表页面，等待运行状态变为运行正常，即可正常使用。

3、创建对象存储OSS

登录对象存储OSS控制台，单击Bucket列表。

4、创建实时计算Flink

先领取资源抵扣包。

购买Flink实例

在实时计算控制台Flink全托管页签，刷新页面查看工作空间状态，当工作空间状态为运行中时，即可进入下一步。

5、创建Hologres内部表

1、在实例详情页面，单击登录实例，进入HoloWeb

2、在元数据管理页签，单击新建库

3、在SQL编辑器页面，单击左上⻆的image图标，新建SQL查询。

6、通过Flink实时写入数据至Hologres

1、选择运维中心 > Session管理。在Session集群页面，单击创建Session集群。

2、在集群总览页签，当Session集群状态（页面上方集群名称旁边）从启动中变为运行中。

3、创建SQL作业。在左侧导航栏，选择数据开发 > ETL

4、在作业页面右上角，单击部署。

5、在作业运维页面，单击目标作业右侧操作列下的启动。

状态变为运行中时，表示您成功启动作业。

7、查询实时数据

1、切换至Hologres的SQL编辑器页签。

2、在Hologres中通过内部表查询今日最活跃项目。

在临时Query查询页签，执行如下命令，查询今日最活跃项目。

SELECT
    repo_name,
    COUNT(*) AS events
FROM
    hologres_dataset_github_event.hologres_github_event
WHERE
    created_at >= CURRENT_DATE
GROUP BY
    repo_name
ORDER BY
    events DESC
LIMIT 5;

        
          
        
        
        
          
          AI 代码解读