Hologres实时湖仓能力增强,挑战5分钟加速分析OSS数据

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据

5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据

活动地址:https://developer.aliyun.com/topic/hologres/dlf


准备工作

本文以上海地域为例开通OSS、DLF和Hologres服务。

  1. 开通OSS服务并准备测试数据。
  1. 打开OSS开通页面,按照界面指引完成开通操作。说明
  1. 登录OSS管理控制台,创建存储空间(Bucket)。具体操作,请参见控制台快速入门

image.png

  1. 上传tpch_10g_orc_3.zip测试数据至Bucket目录。
  • 测试数据文件上传后,若存在.DS_Store等文件需手动删除。
  • 考虑到下载速度,这里仅包含本文需要的nation_orc、supplier_orc、partsupp_orc数据表。


  1. 开通DLF服务并导入OSS测试数据。
  1. 访问开通DLF页面,您也可以单击免费开通,免费试用DLF产品。
  2. 登录数据湖管理控制台,在元数据管理页面,单击新建数据库。具体操作,请参见创建元数据库
    本文以创建mydatabase数据库为例。
  3. 元数据抽取页面,创建元数据抽取任务,将OSS测试数据导入。具体操作,请参见元数据抽取
    抽取完成后,您可以在元数据管理页面的数据表页签查看。

参数配置

字段描述

抽取任务名称

元数据抽取任务的名称,输入为中英文数字和(_)。

OSS路径

指定待抽取数据的OSS目录。

解析格式

支持json、csv、parquet、orc、hudi、delta、avro中某一类格式进行抽取,或采用自动识别模式会对数据文件自动解析。

目标数据库

抽取获取的元数据存储的元数据库位置。

  1. 开通Hologres服务并购买Hologres实例。具体操作,请参见购买Hologres
    若您是新用户可以申请免费试用Hologres为保证使用体验,免费试用请选择32C配置,若您没有免费试用规格,可以购买Hologres按量付费

image.png

步骤一:配置环境

  1. 在Hologres实例中开启数据湖加速功能。
    访问Hologres实例列表,单击目标实例操作列中的数据湖加速并确认,开启数据湖加速功能后,Hologres实例将重启。image.png
  2. 登录Hologres实例,创建数据库。具体操作,请参见连接HoloWeb

image.png

image.png

  1. (可选)创建Extension。本文以dlf_fdw为例。
    说明
    Hologres V2.1版本已默认创建,您无需进行此操作。您可以访问Hologres实例列表,在实例详情页面确认您的实例版本。
CREATE EXTENSION IF NOT EXISTS dlf_fdw;

说明

使用Superuser在SQL编辑器-HoloWeb中执行上述语句创建Extension,该操作针对整个DB生效,一个DB只需执行一次。关于Hologres账号授权详情,请参见授权服务账号

  1. SQL编辑器-HoloWeb,执行以下语句,创建dlf_server外部服务器并配置Endpoint信息,确保Hologres、DLF和OSS之间的正常访问。关于更多的创建方式和相关参数介绍详情,请参见创建外部服务器
--创建外部服务器,以上海reigon为例CREATE SERVER IF NOT EXISTS dlf_server FOREIGN data wrapper dlf_fdw options (    dlf_region 'cn-shanghai',    dlf_endpoint 'dlf-share.cn-shanghai.aliyuncs.com',    oss_endpoint 'oss-cn-shanghai-internal.aliyuncs.com');

步骤二:通过Hologres外部表查询OSS数据湖

Hologres外部表保存与OSS数据湖数据的映射关系,数据在OSS数据湖中存储,不占用Hologres存储空间,查询性能一般在秒级至分钟级。

  1. 创建Hologres外部表,并将OSS数据湖数据映射至Hologres外部表。
IMPORT FOREIGN SCHEMA mydatabase LIMIT TO ----本文以mydatabase为例,创建时需替换为您在DLF元数据管理中的自定义的数据库名称(  nation_orc,  supplier_orc,  partsupp_orc
)FROM SERVER dlf_server INTO public options (if_table_exist 'update');
  1. 数据查询。
    创建外部表成功后,可以直接查询外部表读取OSS中的数据。示例语句如下。
--TPCH Q11查询语句select        ps_partkey,        sum(ps_supplycost * ps_availqty)as value
from        partsupp_orc,        supplier_orc,        nation_orc
where        ps_suppkey = s_suppkey
and s_nationkey = n_nationkey
and RTRIM(n_name)='EGYPT'groupby        ps_partkey having                sum(ps_supplycost * ps_availqty)>(select                                sum(ps_supplycost * ps_availqty)*0.000001from                                partsupp_orc,                                supplier_orc,                                nation_orc
where                                ps_suppkey = s_suppkey
and s_nationkey = n_nationkey
and RTRIM(n_name)='EGYPT')orderby        value desc;


步骤三:通过Hologres内部表查询OSS数据湖

Hologres内部表查询是将OSS数据湖数据导入至Hologres中,数据将在Hologres中存储,可获得更好的查询性能和更高的数据处理能力。关于存储费用详情介绍,请参见计费概述

  1. 在Hologres中创建与外部表相同表结构的内部表,示例如下。
-- 创建nation表DROPTABLE IF EXISTS NATION;BEGIN;CREATETABLE NATION (    N_NATIONKEY intNOTNULL PRIMARY KEY,    N_NAME textNOTNULL,    N_REGIONKEY intNOTNULL,    N_COMMENT textNOTNULL);CALL set_table_property ('NATION','distribution_key','N_NATIONKEY');CALL set_table_property ('NATION','bitmap_columns','');CALL set_table_property ('NATION','dictionary_encoding_columns','');COMMIT;-- 创建supplier表DROPTABLE IF EXISTS SUPPLIER;BEGIN;CREATETABLE SUPPLIER (    S_SUPPKEY intNOTNULL PRIMARY KEY,    S_NAME textNOTNULL,    S_ADDRESS textNOTNULL,    S_NATIONKEY intNOTNULL,    S_PHONE textNOTNULL,    S_ACCTBAL DECIMAL(15,2)NOTNULL,    S_COMMENT textNOTNULL);CALL set_table_property ('SUPPLIER','distribution_key','S_SUPPKEY');CALL set_table_property ('SUPPLIER','bitmap_columns','S_NATIONKEY');CALL set_table_property ('SUPPLIER','dictionary_encoding_columns','');COMMIT;-- 创建partsupp表DROPTABLE IF EXISTS PARTSUPP;BEGIN;CREATETABLE PARTSUPP (    PS_PARTKEY intNOTNULL,    PS_SUPPKEY intNOTNULL,    PS_AVAILQTY intNOTNULL,    PS_SUPPLYCOST DECIMAL(15,2)NOTNULL,    PS_COMMENT textNOTNULL,    PRIMARY KEY (PS_PARTKEY, PS_SUPPKEY));CALL set_table_property ('PARTSUPP','distribution_key','PS_PARTKEY');CALL set_table_property ('PARTSUPP','bitmap_columns','ps_availqty');CALL set_table_property ('PARTSUPP','dictionary_encoding_columns','');COMMIT;
  1. 同步Hologres外部表数据至Hologres内部表。
---将Hologres外表数据导入内表INSERTINTO nation SELECT*FROM nation_orc;INSERTINTO supplier SELECT*FROM supplier_orc;INSERTINTO partsupp SELECT*FROM partsupp_orc;
  1. 查询Hologres内部表数据。
--TPCH Q11查询语句select        ps_partkey,        sum(ps_supplycost * ps_availqty)as value
from        partsupp,        supplier,        nation
where        ps_suppkey = s_suppkey
and s_nationkey = n_nationkey
and RTRIM(n_name)='EGYPT'groupby        ps_partkey having                sum(ps_supplycost * ps_availqty)>(select                                sum(ps_supplycost * ps_availqty)*0.000001from                                partsupp,                                supplier,                                nation
where                                ps_suppkey = s_suppkey
and s_nationkey = n_nationkey
and RTRIM(n_name)='EGYPT')orderby        value desc;

晒出结果:

一等奖、二等奖、参与奖:

内表查询或外表查询的运行日志截图晒出。

外表查询速度:

image.png


表查询速度:image.png

分享作品参与点赞排行

  • 请使用提交作品账号开通产品并参与挑战,后台会校验产品开通及SQL运行情况。
  • 请上传原创数据表及截图,若为抄袭则取消资格;若发现有刷赞行为,立即撤销作品,取消参赛资格。

挑战奖:

基于已有的外表和内表,分别运行2条同样的自定义SQL,附上外表SQL语句、运行日志、运行结果、内表SQL语句、运行日志、运行结果,6个部分合并1张截图上传

  • SQL需要涉及多表查询,单表SQL不支持参与挑战
  • 获奖名单按照作品提交时间排序
  • 为保证SQL原创性,同样SQL只取第一位
  • 挑战奖优先,不与一等奖、二等奖重复获取

挑战奖作品示例:

image.png

挑战奖:小米充电宝15个,非教程代码执行SQL,完成运行速度对比

一等奖:LAMY钢笔1个,作品点赞数位列第1名,且点赞数≥20个

二等奖:小米背包20个,作品点赞数位列第2-21名,且点赞数≥10个

参与奖:社区积分,每位参赛者可获得社区100积分

image.png

MaxCompute湖仓一体

数据仓库MaxCompute也可以基于本实验同一份OSS数据和DLF抽取的元数据进行 湖数据查询和湖数据入仓 等湖仓一体实践,模拟真实业务中高价值湖数据入仓进行处理加工、联合仓内数据建模等操作,具体请参考MaxCompute湖仓一体

MaxCompute 是企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。更多介绍请查看MaxCompute官网

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
9天前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
7天前
|
DataWorks 关系型数据库 OLAP
云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析
本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。
|
9天前
|
SQL 分布式计算 大数据
湖仓融合:MaxComputee与Hologres基于OpenLake的湖上解决方案
本次主题探讨湖仓融合:MaxCompute与Hologres基于OpenLake的湖上解决方案。首先从数据湖和数据仓库的历史及业界解决方案出发,分析湖仓融合的两种思路;接着针对国内问题,介绍阿里云如何通过MaxCompute和Hologres解决湖仓融合中的挑战,特别是在非结构化数据处理方面的能力。最后,重点讲解Object Table为湖仓增添了SQL生态的非结构化数据处理能力,提升数据处理效率和安全性,使用户能够在云端灵活处理各类数据。
|
9天前
|
SQL 存储 分布式计算
Hologres+Paimon构建一体化实时湖仓
Hologres 3.0全新升级,面向未来的一体化实时湖仓。它支持多种Table Format,提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合,实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式,满足不同业务需求,实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景,也可用于成本敏感的数据共享场景。
|
2月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
488 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
3月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
202 2
|
3月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
201 1
|
3月前
|
DataWorks 数据挖掘 关系型数据库
基于hologres搭建轻量OLAP分析平台解决方案评测
一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣
529 10
|
4月前
|
数据可视化 数据挖掘 OLAP
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
【9月更文第6天】开作为互联网手游公司的产品经理和项目经理,数据分析对于我们的业务至关重要。我们一直在寻找高效、可靠的数据分析解决方案,以更好地了解玩家行为、优化游戏体验和提升运营效率。近期,我们体验并部署了《基于 Hologres 搭建轻量 OLAP 分析平台》解决方案,以下是我们对该方案的评测报告。
97 12
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
|
3月前
|
存储 SQL 人工智能
【云栖实录】Hologres3.0全新升级:一体化实时湖仓平台
2024年云栖大会,Hologres 3.0全新升级为一体化实时湖仓平台,通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。同时,Hologres 的预付费实例年付折扣再降15%,仅需7折,不断帮助企业降低数据管理成本,赋能业务增长。

相关产品

  • 实时数仓 Hologres
  • 下一篇
    开通oss服务