基于hologres搭建轻量OLAP分析平台解决方案评测

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣

这是解决方案评测的第七篇,也是开发者新版评测的第七篇。希望大家可以踊跃参加,把你最真实的体验感受和建议分享出来。可点击下方链接前往评测活动首页:

解决方案评测|基于hologres搭建轻量OLAP分析平台

解决方案评测|10 分钟构建 AI 客服并应用到网站、钉钉或微信中

解决方案评测|函数计算驱动多媒体文件处理

解决方案评测|Serverless高可用架构

解决方案评测|容器化管理云上应用

解决方案评测|通义万相AI绘画创作

解决方案评测|高效构建企业门户网站

方案速览

在经过了前几期评测活动完善后,当前的解决方案界面风格基本保持一致,方案整体更易读,针对性更强了。还是老惯例,放上整体方案界面一览。

image.png

从整体方案来看,依旧是从五个方面展开的,分别是方案优势、架构部署、应用场景、产品优惠、推荐方案。下面将逐个展开阐述。

方案优势

这一块内容一开始主要阐述的是复杂的OLAP场景带来一系列技术挑战,随后引出Hologres产品优势。除了方案中提到的这几个突出的挑战外,展开来实际上还有如下几个点:

  1. 技术栈复杂
    • 多组件集成:OLAP分析往往需要集成多种技术产品来支撑业务,如MySQL、CK(ClickHouse)、Doris等数据库和数据处理系统,这导致了组件繁多,增加了系统的复杂性和维护难度。
    • 统一管理困难:多种技术产品的使用使得数据管理和分析变得复杂,难以实现统一的数据管理和分析平台,增加了数据不一致的风险。
  2. 需求响应时间长
    • 灵活性不足:业务对OLAP分析的需求往往灵活多变,而复杂的技术栈难以快速响应这些变化,导致需求响应时间长。
    • 资源分配不均:在资源有限的情况下,复杂的技术栈可能无法高效地分配资源,以满足不同分析需求的优先级和时效性。
  3. 数据时效性低
    • 实时更新困难:传统的OLAP系统往往无法实时更新和写入数据,导致数据的时效性低,难以满足业务对实时数据分析的需求。
    • 复杂查询性能不佳:在大数据量的情况下,复杂查询的性能往往不佳,影响了数据分析的效率和准确性。
  4. 数据不一致性
    • 数据同步问题:在多源数据环境下,数据同步的准确性和及时性成为一大挑战,容易导致数据不一致的问题。
    • 数据质量问题:数据在传输和转换过程中可能出现错误或丢失,进一步加剧了数据不一致的风险。
  5. 成本和维护难度
    • 高昂成本:复杂的技术栈意味着更高的部署和维护成本,包括硬件、软件、人力等方面的投入。
    • 维护难度增加:多组件的集成和复杂的系统结构使得系统的维护和故障排查变得更加困难。

在方案的优势阐述上,非常好地用上了表格,直观清晰,一目了然。

image.png

架构部署

方案架构图通俗易懂

image.png

在部署方式上依旧提供了一键部署和手动部署两种方式。

image.png

应用场景

这块内容主要阐述的应用行业,实际上可以根据业务需求划分为如下几个场景:

  1. 实时数据分析
    • Hologres支持实时数据同步与查询,可以将来自各种数据源(如MySQL、PostgreSQL等)的数据实时同步到Hologres中,并支持对实时数据进行快速查询和分析,满足企业对数据时效性的高要求。
    • 实时数据分析场景包括但不限于在线广告点击分析、实时交易监控、实时用户行为分析等,这些场景要求系统能够快速响应并处理大量实时数据流。
  2. 多维度分析
    • Hologres提供多维分析能力,允许用户从多个角度对数据进行切片、切块、旋转等操作,从而揭示数据背后的复杂关系和趋势。
    • 多维度分析场景包括销售数据分析、用户画像构建、库存管理等,这些场景需要系统能够处理大量的历史数据,并支持复杂的查询和分析操作。
  3. 即席查询
    • 即席查询是指用户根据需要随时提出新的查询请求,系统能够快速响应并返回查询结果。Hologres凭借其高性能的查询能力,支持用户进行即席查询,提高数据分析的灵活性和效率。
    • 即席查询场景适用于数据分析师、业务人员等需要快速获取数据洞察的用户,他们可能需要根据不同的业务需求提出不同的查询请求。
  4. 在线服务
    • 除了数据分析,Hologres还可以作为在线服务的后端数据库,支持高并发的读写操作。通过将OLAP与在线服务相结合,企业可以实现数据的实时分析和实时反馈,提高业务决策的时效性和准确性。
    • 在线服务场景包括实时推荐系统、实时风控系统等,这些场景要求系统能够在高并发场景下保持稳定的性能和响应速度。
  5. 向量计算
    • Hologres支持向量计算,可以处理向量数据类型的存储和查询,满足机器学习、深度学习等应用场景的需求。
    • 向量计算场景包括特征向量的存储与检索、相似度计算等,这些场景在推荐系统、搜索引擎等领域具有广泛的应用。

产品优惠

针对本次解决方案涉及的产品罗列了购买链接以及试用链接,对于想要第一时间体验产品的开发者们来说还是非常方便的。

image.png

image.png

推荐方案

在这块内容阐述上突出列举了两个案例,分别是向量检索和数据湖仓的应用。如果你想了解更多技术解决方案,可点击该链接前往。技术解决方案

image.png

部署体验

通过上述速览,我们已经对方案的整体有了一个非常清晰的认识了,下面将按照方案架构部署部分来体验如何实现。

在正式开始部署体验前,有两个必要条件,第一就是拥有一个阿里云得账号(如果您还没有阿里云账号,请访问阿里云账号注册页面),第二就是确保账户余额大于等于100元(如果账号余额不足,请为阿里云账号充值)。满足了这两个条件后,接下来我们将通过ROS一键部署服务。

创建Hologres实例

单击一键部署,前往ROS编排页面。由于本次体验涉及的产品较多,而ROS将完成基础环境的一键部署,如专有网络VPC和交换机、Hologres实例。

选择地区为华东1(杭州),资源栈名称可自定义,也可以默认,点击下一步。

image.png

在信息确认界面,点击创建即可。

image.png

如果你是第一次使用,将弹出依赖检查,点击开通权限即可。

image.png

完成后,点击继续创建。

image.png

在创建过程中,可以通过事件或者资源标签查看创建进度。

image.png

image.png

大概经历2分钟后,实例已经完成创建。此时状态变为创建成功。

image.png

创建数据库和内部表

登录Hologres管理控制台,单击实例名称,在实例详情页,单击登录实例。

image.png

HoloWeb页面,点击数据库,弹出新建数据库窗口,填入数据库名称,其他参数默认。

image.png

选择SQL编辑器,然后单击新建临时Query查询。在临时Query页面,粘如如下SQL并运行。

-- 新建schema用于创建内表并导入数据
CREATE SCHEMA IF NOT EXISTS hologres_dataset_github_event;

DROP TABLE IF EXISTS hologres_dataset_github_event.hologres_github_event;

BEGIN;
CREATE TABLE hologres_dataset_github_event.hologres_github_event (
  id bigint PRIMARY KEY,
  actor_id bigint,
  actor_login text,
  repo_id bigint,
  repo_name text,
  org_id bigint,
  org_login text,
  type text,
  created_at timestamp with time zone NOT NULL,
  action text,    
  commit_id text,
  member_id bigint,
  language text
);
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'distribution_key', 'id');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'event_time_column', 'created_at');
CALL set_table_property ('hologres_dataset_github_event.hologres_github_event', 'clustering_key', 'created_at');

COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.id IS '事件ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_id IS '事件发起人ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.actor_login IS '事件发起人登录名';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_id IS 'repoID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.repo_name IS 'repo名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_id IS 'repo所属组织ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.org_login IS 'repo所属组织名称';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.type IS '事件类型';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.created_at IS '事件发生时间';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.action IS '事件行为';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.commit_id IS '提交记录ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.member_id IS '成员ID';
COMMENT ON COLUMN hologres_dataset_github_event.hologres_github_event.language IS '编程语言';

COMMIT;

image.png

部署DataWorks服务

进入DataWorks服务开通页,地域选择华东1(杭州)、基础版、按量付费,其他默认。

image.png

image.png

image.png

勾选服务协议,点击确认订单并支付。

image.png

校验通过后,点击下一步。

image.png

价格清单确认无误后,点击下一步创建订单。

image.png

在支付页面,点击支付即可。

image.png

当出现下图这个页面时,就表示DataWorks服务已成功创建。

image.png

配置实时同步任务

登录DataWorks控制台,在左侧导航栏,找到更多,点击管理中心。

image.png

选择左侧导航栏的\数据源\ > *数据源列表**,然后单击新建数据源*

image.png

分别新建一个Mysql数据源和一个Hologres数据源。首次新建需要获取RAM授权,点击去授权即可。

image.png

分别按下图所示输入必要信息,而后点击完成创建。

image.png

image.png

访问DataWorks数据集成页面。在同步任务页面,选择来源去向,单击开始创建

image.png

同步类型选择整库实时。

image.png

资源组选择上述步骤中创建的,占用的CU量配置为2 CU,数据来源和数据去向均选择上述创建的。

image.png

在测试连通性上之所以Mysql出现连通失败,是资源组默认不具备公网访问能力。所以这里我们还需要需要为VPC配置公网NAT网关并绑定弹性公网IP(EIP)。

登录专有网络管理控制台,点击左侧导航栏的NAT网关——公网NAT网关。

image.png

地域、专有网络、交换机均选择同DataWorks服务一致的。

image.png

访问模式选择择VPC全通模式(SNAT),选择新购弹性公网IP,并设置带宽峰值为1Mbps。

image.png

确认信息无误后,点击立即购买。当出现下图就表示成功创建。

image.png

此时我们回到刚才的新建同步任务页面,重新点击测试连通性,可以发现已经连通成功了。

image.png

点击下一步,开始配置要同步的库表和目标表映射。勾选MySQL中的github_public_event表,添加至已选库表中。

image.png

目标表映射区域,勾选对应表,单击批量刷新映射

image.png

目标Schema名目标表名修改为上述已创建Hologres内部表,然后单击完成配置

image.png

实时任务配置完成后,在任务列表页面,单击操作列中启动

image.png

单击同步任务名称,可以查看同步任务的详情以及进度。

image.png

全量初始化耗时较久,需要耐心等待。可以通过下图所示查看进度。

image.png

实时同步阶段同样耗时较长,可以通过下图所示查看进度。

image.png

image.png

image.png

image.png

数据验证

完成上述的同步任务后,访问HoloWeb SQL编辑器页面,运行如下SQL,即可查询今日最活跃项目。

SELECT
    repo_name,
    COUNT(*) AS events
FROM
    hologres_dataset_github_event.hologres_github_event
WHERE
    created_at >= CURRENT_DATE
GROUP BY
    repo_name
ORDER BY
    events DESC
LIMIT 5;

资源清理

在完成部署体验后,如果不再使用,请及时释放相关资源,否则Hologres与DataWorks资源将会持续运行产生费用。

  • 删除DataWorks资源组

登录DataWorks控制台,单击左侧导航栏的资源组,在对应资源更多中点击退订。

image.png

  • 删除DataWorks数据源及同步任务

登录DataWorks控制台,单击左侧导航栏的数据集成,在下拉框中选择对应工作空间后单击进入数据集成

image.png

数据源页面,勾选MySQLData和HologresData数据源,然后单击批量删除,按照界面提示删除同步任务。

image.png

同步任务页面,选择操作\更多\ > *删除***,按照界面提示删除同步任务。

image.png

  • 解绑并释放弹性公网IP

登录NAT网关管理控制台,选择\公网访问\ > *弹性公网IP**。在弹性公网IP页面,单击目标弹性公网IP实例操作列中选择强制释放*,并按照界面提示进行解绑。

image.png

公网NAT网关页面,单击目标NAT网关实例操作列中的删除,并按照界面提示进行删除NAT网关。

image.png

  • 删除专有网络VPC、交换机和Hologres实例

登录ROS控制台,在左侧导航栏,选择资源栈。在资源栈页面的顶部选择部署的资源栈所在地域,找到资源栈,然后在其右侧操作列,单击删除

image.png

如果你只想快速体验产品,除了一键部署和手动部署方式可选以往,还有一个非常经济实惠的方式可选择,那就是云起实验室。实验链接如下,点击前往

image.png

写在最后

问题反馈

1、在方案优势阐述中,用表格方式例举产品优势非常值得肯定,但由于表格占用区域过大,显得内容很空,需要优化表格间距,做到整体统一。

image.png

2、部署文档中存在两处错别字,分别出现在VPC公网NAT网关的部分,文档中写成了网管(可以猜想下编辑的小伙伴是不是干过网管工作)。

image.png

此外,部署文档中存在多处不太精准的描述。如下图:

image.png

image.png

image.png

image.png

image.png

3、整个部署耗时非常长,均花在了DataWorks的全量初始化和实时同步的任务上了,而文档中并没有针对此处的优化配置建议,实际上可以通过调大占用CU的量调减初始数据量来实现调优的。

体验总结

(一)

该方案内容提供了较为详细的技术细节,确保了用户能够基本理解方案的深层原理和实施方法。方案中详细描述了Hologres作为一站式实时数仓引擎的优势,包括其统一、实时、弹性、易用的特性,以及能够支持多维分析、即席分析、在线服务、向量计算等多种场景。此外,还介绍了DataWorks数据集成工具如何将多种数据库(如MySQL、PG等)的数据实时同步到Hologres中,构建了完整的OLAP分析平台。然而,在深入技术实现方面,如具体的数据同步逻辑、Hologres的内部架构原理、查询优化策略等,方案并未详细展开。这些对于希望深入了解并自定义方案的技术人员来说可能略显不足。

(二)

改进建议

  • 资源选择与配置:方案中虽然提供了推荐的资源规格,但对于不同业务规模和性能需求下的资源选择未给出详细指导。用户可能需要根据自身情况自行调整,这要求用户有一定的云产品使用经验。
  • 数据迁移策略:对于从其他数据库(如ClickHouse)迁移到Hologres的具体步骤和注意事项,方案描述较为笼统,可能需要用户自行查阅更多迁移文档或进行试错。
  • 性能调优:方案中没有提及性能调优的具体方法和步骤,这对于追求极致性能的用户来说可能是一个需要额外关注的点。
  • 实验数据过于庞大:作为轻量级上手实验不应该用如此庞大数据量,足足有910多万条,导致后面实时同步耗时太久,本来是省钱的一个体验,硬是被这数据量搞成了费钱的体验了。整个体验耗时近2小时,耗费36元。

image.png

(三)

代码示例:部署过程中提供的代码示例与链接前往的存在差异,虽然功能上所实现的效果是一样的,但作为部署文档不应存在不一致的情况。

异常情况:在按照方案提供的步骤进行部署时,我并未遇到明显的错误或异常情况。最让我吐糟的点就是数据量太大,需要耗费非常长的时间来进行实时同步,加大了部署体验的不确定性。

(四)

根据本方案进行部署,我认为它能够满足一般的数据分析需求,特别是对于那些希望快速搭建轻量级OLAP分析平台的用户。Hologres的卓越查询性能和多场景支持能力使得数据分析更加高效和灵活。

需要改进或补充的地方

  • 数据安全性与合规性:方案中对于数据在传输和存储过程中的安全性以及合规性(如GDPR、HIPAA等)提及较少,这对于一些对数据安全性有严格要求的企业来说可能是个关注点。
  • 扩展性与可定制性:方案在描述时主要聚焦于基础功能的实现,对于如何在后续根据业务需求进行扩展和定制(如自定义函数、插件开发等)的指引不足。
  • 性能调优工具与指南:提供一套完整的性能调优工具和指南,帮助用户根据自身业务特点进行性能优化,将进一步提升方案的实用性和竞争力。

如果你想获取视频类的资料,今年上新的云端问道栏目恰好有本次评测的产品内容,可点击如下链接前往学习。(建议关注该栏目更新,因为参加实操打卡可以获得小礼品

云端问道5期方案教学-基于Hologres轻量实时的高性能OLAP分析

基于Hologres轻量高性能OLAP分析陪跑班

image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
342 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
2月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
253 0
Flink基于Paimon的实时湖仓解决方案的演进
|
4月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
4月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
6月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
4月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
179 0
|
8月前
|
存储 缓存 数据挖掘
Flink + Doris 实时湖仓解决方案
本文整理自SelectDB技术副总裁陈明雨在Flink Forward Asia 2024的分享,聚焦Apache Doris与湖仓一体解决方案。内容涵盖三部分:一是介绍Apache Doris,一款高性能实时分析数据库,支持多场景应用;二是基于Doris、Flink和Paimon的湖仓解决方案,解决批流融合与数据一致性挑战;三是Doris社区生态及云原生发展,包括存算分离架构与600多位贡献者的活跃社区。文章深入探讨了Doris在性能、易用性及场景支持上的优势,并展示了其在多维分析、日志分析和湖仓分析中的实际应用案例。
589 17
Flink + Doris 实时湖仓解决方案
|
6月前
|
存储 消息中间件 OLAP
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
1259 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
|
12月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
9月前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
1296 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

相关产品

  • 实时数仓 Hologres