方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
实时数仓Hologres,5000CU*H 100GB 3个月
简介: DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。

DataWorks基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

Hologres是阿里云自研一站式实时数仓,统一数据平台架构,支持海量结构化/半结构化数据的实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议),无缝对接主流BI工具,支持OLAP查询、即席分析、在线服务、向量计算多个场景,分析性能打破TPC-H世界记录,与MaxCompute、Flink、DataWorks深度融合,提供离在线一体化全栈数仓解决方案。

一、方案概述

本方案基于阿里云实时数仓Hologres和DataWorks数据集成,通过简单的产品操作即可完成数据库RDS实时同步数据到Hologres,并通过Hologres强大的查询分析性能,完成一站式高性能的OLAP数据分析。
image.png

方案部署

1、创建专有网络VPC和交换机

为确保后续任务的网络连通,请务必保证Hologres与DataWorks资源组使用同⼀个VPC。

image.png

image.png

在创建专有网络页面,您可查看到创建的专有网络VPC和交换机的ID、实例名称等信息。
image.png

2、试用实时数仓Hologres。新用户可以有3个月免费试用期。

image.png

在实时数仓Hologres面板,根据如下参数说明进行配置,未提及的参数保持默认即可,单击立即试用。
image.png

image.png

大概需要5-10分钟,在实例列表页面,等待运行状态变为运行正常,即可正常使用。
image.png

3、开通DataWorks

image.png

image.png

image.png
创建工作空间列表。注意需要类似XXXX_123这种格式,即字母、数字、下划线都用到才可以。
image.png

image.png

在资源组列表页面,等待目标资源组的状态变为运行中,即可正常使用资源组。
image.png

4、创建公网NAT

首次使用NAT网关时,在创建公网NAT网关页面关联角色创建区域,单击创建关联角色。角色创建成功后即可创建NAT网关。
image.png

image.png
image.png

image.png

image.png
返回如下页面,表示您已创建成功,可以查看到创建的弹性公网IP、NAT网关等资源的资源ID。
image.png

5、创建Hologres表

在实例列表页面,但是实例ID。
image.png

在实例详情页面,单击登录实例,进入HoloWeb。
image.png

image.png

在顶部菜单栏中,单击SQL编辑器。

image.png

新建SQL查询
image.png

新建Hologres内部表。

将如下命令复制并粘贴至临时Query查询页签中,单击执行,创建Hologres内部表hologres_dataset_github_event.hologres_github_event,后续会将数据实时写入至该表中。

-- 新建schema用于创建内表并导入数据
CREATE SCHEMA IF NOT EXISTS hologres_dataset_github_event;

DROP TABLE IF EXISTS hologres_dataset_github_event.hologres_github_event;

BEGIN;
CREATE TABLE hologres_dataset_github_event.hologres_github_event (
 id bigint PRIMARY KEY,
 actor_id bigint,
 actor_login text,
 repo_id bigint,
 repo_name text,
 org_id bigint,
 org_login text,
 type text,
 created_at timestamp with time zone NOT NULL,
 action text, 
 commit_id text,
 member_id bigint,
 language text
);
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'distribution_key', 'id');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'event_time_column', 'created_at');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'clustering_key', 'created_at');

COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.id IS '事件ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_id IS '事件发起⼈ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_login IS '事件发起⼈登录名';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_id IS 'repoID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_name IS 'repo名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_id IS 'repo所属组织ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_login IS 'repo所属组织名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.type IS '事件类型';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.created_at IS '事件发⽣时间';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.action IS '事件行为';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.commit_id IS '提交记录ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.member_id IS '成员ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.language IS '编程语⾔';

COMMIT;

执行结束
image.png

6、实时同步数据至Hologres

在管理中心页面,在下拉框中选择默认⼯作空间,单击进入管理中心。
image.png

在左侧导航栏中,选择数据源 > 数据源列表。

image.png

创建MySQL数据源。

image.png

image.png

配置完成后,在连接配置区域,找到您创建的资源组,单击其右侧的测试连通性。

image.png

image.png
image.png

创建Hologres数据源。

image.png

image.png
image.png

image.png

创建实时同步任务。
image.png

在数据集成页面,在创建同步任务中,选择来源与去向数据源,单击开始创建。

来源:选择MySQL。去向:选择Hologres

image.png

在基本信息区域中,配置任务信息。 新任务名称:data_test。 同步类型:选择整库实时。

image.png

在网络与资源配置区域中,配置任务网络连通。

image.png

image.png

image.png

实时同步任务设置。在选择要同步的库表区域的源端库表中,勾选github_public_event表,然后右移。

image.png
image.png

在目标表映射区域,勾选github_public_event表,单击批量刷新映射。基于上述已创建的Hologres内部表,将目标Schema名改为hologres_dataset_github_event,目标表名改为hologres_github_event,单击完成配置。
image.png

image.png

image.png

在任务列表页面,单击启动。

image.png

image.png
image.png

在任务详情页面,您可查看到任务的执行情况,请耐心等待任务执行完成。

image.png

进度如下:
image.png

image.png

7、实时OLAP分析

返回至SQL编辑器·HoloWeb页签。在临时Query查询页签中,执行如下命令,查询实时更新的过去24小时GitHub最活跃项⽬。


SELECT
  repo_name,
  COUNT(*) AS events
FROM
  hologres_dataset_github_event.hologres_github_event
WHERE
  created_at >= now() - interval '1 day'
GROUP BY
  repo_name
ORDER BY
  events DESC
LIMIT 5;

查看同步的相关监控数据

image.png
image.png
image.png

image.png
image.png
image.png

8、清除资源

删除实时数仓Hologres。

image.png

image.png

image.png

image.png

删除实时同步任务、数据源、资源组和工作空间。

image.png

在数据集成页面,找到目标同步任务,单击其右侧操作列下的停止。

image.png

任务停止以后,选择其右侧操作列下的更多 > 删除。
image.png

image.png

在工作空间列表页面,找到目标工作空间,单击其右侧操作列下的管理。

image.png

在数据源页面,分别单击Hologre和MySQL数据源右侧操作列下的删除。

image.png

image.png

在DataWorks控制台左侧导航栏中,单击资源组列表,找到您创建的资源组

image.png

image.png

image.png

删除工作空间列表
image.png
image.png

删除公网NAT和弹性公网IP。
image.png
image.png

image.png

image.png

image.png

删除VPC及交换机。

image.png

image.png

三、体验总结

在本方案中,DataWorks作为阿里云提供的大数据开发治理平台,其产品在多个方面如任务开发便捷性、任务运行速度、产品使用门槛等,通常都能满足大部分企业的数据处理需求,特别是在与Hologres等阿里云自研产品结合使用时,能够发挥出更高的效能。以下是对这些方面的具体分析:

  1. 任务开发便捷性

    • DataWorks提供了丰富的数据开发组件和模板,简化了数据处理的流程。
    • 支持拖拽式的界面操作,降低了数据开发的技术门槛。
    • 集成了多种数据源和数据目标,方便数据的接入和输出。

    因此,从任务开发便捷性的角度来看,DataWorks能够很好地满足企业的需求。

  2. 任务运行速度

    • DataWorks基于阿里云的大数据引擎(如ODPS、EMR等)构建,能够充分利用云端的计算资源。
    • 支持分布式计算和并行处理,提高了数据处理的效率。
    • 与Hologres等高性能数仓产品的结合,能够进一步提升数据查询和分析的速度。

    所以,在任务运行速度方面,DataWorks同样表现出色。

  3. 产品使用门槛

    • DataWorks提供了详尽的文档和教程,帮助用户快速上手。
    • 支持多种身份认证和权限管理方式,确保了数据的安全性和合规性。
    • 提供了丰富的API和SDK,方便用户进行二次开发和集成。

    在产品使用门槛方面,DataWorks也做得相当不错,既适合初学者快速入门,也适合高级用户进行复杂的数据处理。

  4. 其他功能

    • DataWorks还提供了数据质量管理、数据资产管理、数据安全审计等功能,满足了企业对数据治理的全方位需求。
    • 支持实时数据监控和告警,确保数据处理的稳定性和可靠性。

针对数据处理场景,DataWorks可以改进或增加的功能点如下:

  • 更智能的数据处理:引入更多的AI和机器学习算法,实现数据的智能清洗、转换和分析,提高数据处理的效率和准确性。
  • 更丰富的数据源支持:除了现有的数据源外,还可以进一步扩展对新兴数据源(如物联网设备、社交媒体等)的支持。
  • 更灵活的任务调度:提供更丰富的任务调度策略和触发机制,以满足不同场景下的数据处理需求。
  • 更强大的数据可视化:虽然DataWorks可以与主流BI工具无缝对接,但自身也可以提供更强大的数据可视化功能,方便用户进行直观的数据分析和展示。
  • 更高效的团队协作:优化团队协作功能,如版本控制、任务分配、进度跟踪等,以提高团队的工作效率和协作效果。
相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1天前
|
存储 消息中间件 OLAP
Hologres+Flink企业级实时数仓核心能力介绍-2024实时数仓Hologres线上公开课03
本次分享由阿里云产品经理骆撷冬(观秋)主讲,主题为“Hologres+Flink企业级实时数仓核心能力”,是2024实时数仓Hologres线上公开课的第三期。课程详细介绍了Hologres与Flink结合搭建的企业级实时数仓的核心能力,包括解决实时数仓分层问题、基于Flink Catalog的Streaming Warehouse实践,并通过典型客户案例展示了其应用效果。
20 10
Hologres+Flink企业级实时数仓核心能力介绍-2024实时数仓Hologres线上公开课03
|
1天前
|
SQL 存储 JSON
实时数仓 Hologres 产品介绍:一体化实时湖仓平台
本次方案的主题是实时数仓 Hologres 产品介绍:一体化实时湖仓平台,介绍了 Hologres 湖仓存储一体,多模式计算一体、分析服务一体和 Data+AI 一体四方面一体化场景,并对其运维监控方面及客户案例进行一定讲解。 1. Hologres :面向未来的一体化实时湖仓 2. 运维监控 3. 客户案例 4. 总结
24 14
|
1天前
|
DataWorks 关系型数据库 Serverless
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
28 12
|
1天前
|
存储 SQL 运维
Hologres OLAP场景核心能力介绍-2024实时数仓Hologres线上公开课02
本次分享由Hologres产品经理赵红梅(梅酱)介绍Hologres在OLAP场景中的核心能力。内容涵盖OLAP场景的痛点、Hologres的核心优势及其解决方法,包括实时数仓分析、湖仓一体加速、丰富的索引和查询性能优化等。此外,还介绍了Hologres在兼容PG生态、支持多种BI工具以及高级企业级功能如计算组隔离和serverless computing等方面的优势。最后通过小红书和乐元素两个典型客户案例,展示了Hologres在实际应用中的显著效益,如运维成本降低、查询性能提升及成本节省等。
|
2天前
|
SQL 存储 运维
云端问道5期方案教学-基于 Hologres 轻量实时的高性能OLAP分析
本文介绍了基于Hologres的轻量实时高性能OLAP分析方案,涵盖OLAP典型应用场景及Hologres的核心能力。Hologres是阿里云的一站式实时数仓,支持多种数据源同步、多场景查询和丰富的生态工具。它解决了复杂OLAP场景中的技术栈复杂、需求响应慢、开发运维成本高、时效性差、生态兼容弱、业务间相互影响等难题。通过与ClickHouse对比,Hologres在性能、写入更新、主键支持等方面表现更优。文中还展示了小红书、乐元素等客户案例,验证了Hologres在实际应用中的优势,如免运维、查询快、成本节约等。
云端问道5期方案教学-基于 Hologres 轻量实时的高性能OLAP分析
|
13天前
|
DataWorks 关系型数据库 OLAP
云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析
本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。
|
16天前
|
SQL 分布式计算 大数据
湖仓融合:MaxComputee与Hologres基于OpenLake的湖上解决方案
本次主题探讨湖仓融合:MaxCompute与Hologres基于OpenLake的湖上解决方案。首先从数据湖和数据仓库的历史及业界解决方案出发,分析湖仓融合的两种思路;接着针对国内问题,介绍阿里云如何通过MaxCompute和Hologres解决湖仓融合中的挑战,特别是在非结构化数据处理方面的能力。最后,重点讲解Object Table为湖仓增添了SQL生态的非结构化数据处理能力,提升数据处理效率和安全性,使用户能够在云端灵活处理各类数据。
|
16天前
|
SQL 存储 分布式计算
Hologres+Paimon构建一体化实时湖仓
Hologres 3.0全新升级,面向未来的一体化实时湖仓。它支持多种Table Format,提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合,实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式,满足不同业务需求,实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景,也可用于成本敏感的数据共享场景。
|
24天前
|
机器学习/深度学习 数据采集 DataWorks
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
27天前
|
数据挖掘 OLAP BI
OLAP技术:数据分析的修仙秘籍初探
OLAP(联机分析处理)是一种多维数据分析技术,能够从不同角度洞察数据,揭示隐藏的趋势和模式。它最早由Edgar F. Codd在1993年提出,旨在弥补传统OLTP系统的不足,支持复杂的数据分析与决策支持。OLAP操作包括钻取、上卷、切片、切块和旋转等,帮助用户灵活地探索数据。广泛应用于财务报告、市场分析、库存管理和预测分析等领域,是现代商业智能的重要工具。
66 7