DataWorks on EMR StarRocks,打造标准湖仓新范式

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。


在大数据领域,数据仓库和实时分析系统扮演着至关重要的角色。DataWorks 基于大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为用户带来智能化的数据开发和分析体验。而阿里云提供的 EMR Serverless StarRocks 全托管服务(下文简称 StarRocks),专注于实时分析场景,可提供高性能、全场景、极速统一的数据分析体验。

目前,我们可DataWorks 和 StarRocks 的结合使用 以 StarRocks 作为引擎层,以 DataWorks 作为数据开发与治理平台,形成组合拳,帮助企业用户通过 DataWorks 的产品界面来灵活访问和使用 StarRocks,并且实现一系列的数据操作,例如:数据建模、数据的同步与集成、数据的开发与调度、数据治理、数据分析与服务等。通过该解决方案, 帮助数仓团队实现 OLAP 的分析、湖仓一体的开发以及数据综合治理等一系列的应用场景和目标。这样一来,可以满足复杂业务场景下对于数据仓库和分析系统的需求,提供一站式的数据处理和分析能力,帮助企业更好地释放数据价值。



大数据开发治理平台 DataWorks 简介


DataWorks 是阿里云提供的一款大数据开发平台,旨在帮助企业实现数据的全生命周期管理,功能覆盖智能数据建模、数据集成、数据开发、数据治理与安全等大数据开发治理全链路。同时,DataWorks 近期已全新升级为新一代智能湖仓一体数据开发与治理平台,为 OpenLake 湖仓一体数据架构提供智能化数据集成、数据开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理,致力于为用户构建一个开放的云原生数据开发治理平台。


EMR Serverless StarRocks 简介


EMR Serverless StarRocks 作为新一代全场景 MPP(Massively Parallel Processing)数据仓库,凭借其极速的查询性能多表 Join 的查询能力MySql 协议的兼容性等特点,获得了广泛的客户关注,并应用在商业分析、广告转化、业务监控、用户触达等场景。越来越多的客户使用 StarRocks 来统一其 OLAP 引擎,降低运维成本。

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一全托管服务,结合 StarRocks 自身极速和统一的特性,重点围绕降低门槛和降低运维复杂度这两个目标,为客户提供了更多的能力。EMR Serverless StarRocks 提供了全托管、免运维的服务,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。

DataWorks 作为阿里云大数据开发治理平台,结合 StarRocks 引擎在数据分析和数据服务上的极速表现,全面助力 StarRocks 在数据开发、数据消费和数据治理场景上的使用。

在数据开发的整个生命周期中,涵盖从数据采集到最终数据分析与应用的多个关键环节。其中,数据同步、数据开发、调度运行以及运维监控是四个尤为重要的组成部分。DataWorks 在这几个方面均展现出了卓越的能力,为企业级大数据处理提供了一站式的解决方案。

DataWorks 数据集成


DataWorks 具备成熟的整库级数据同步的解决方案,面向数据库,配置一个任务,就可以快速地把目标数据库下的所有表数据全部同步和传输到 StarRocks 中。针对将数据同步到 StarRocks 中的场景,DataWorks 支持两种数据源(MySQL、Kafka)和三种数据同步的解决方案(整库周期离线、全增量实时同步、单表实时同步)。DataWorks支持将MySQL的数据实时同步和离线同步到 StarRocks,将Kafka的数据实时同步到StarRocks。

  • MySQL 数据离线同步到 StarRocks:DataWorks 提供了整库周期离线的同步方案,该方案非常适合企业初次上云或者系统迁移的场景,在数据更新不频繁的情况下,可以一次性把 MySQL 中的存量数据全部同步到 StarRocks 中。
  • MySQL 全增量实时同步到 StarRocks首先通过全量数据同步的方式,把历史数据全部同步到 StarRocks接下来基于增量数据的判断条件,将数据实时同步到 StarRocks 中。这种方案比较适合数仓的持续集成,以及实时业务分析的场景。
  • Kafka 实时同步到 StarRocks:DataWorks 支持把消息队列的数据同步到 StarRocks 中, 通过指定 Topic 将存量数据同步到 StarRocks,并基于增量数据的判断条件持续进行实时数据同步。



DataWorks 数据开发


DataWorks 为用户提供了 DataStudio 工具来进行数据开发。DataStudio 具备智能化和一站式的开发能力,可以面向包含 StarRocks 在内的多种引擎来进行数据的开发和湖仓开发的流程。同时在这个过程中,可以构建复杂的业务流程和调度依赖,并且提供开发和生产环境隔离的研发模式。

在实际的开发过程中,首先,在 DataStudio 中创建 StarRocks 任务基于该任务来编辑 StarRocks 相关的代码和脚本,填写相应的代码逻辑创建和封装好单个任务后,将类似的多个任务,按照业务逻辑流程来进行拖拽化的处理和编排,以构建相应的工作流。这样就能够将不同小任务之间的串并行的逻辑和执行逻辑,通过可视化的方式串联起来。与此同时,在编辑的过程当中,DataWorks 提供智能化的能力,如智能 SQL 编辑器和 Copilot 智能助手等,通过智能的元数据提示、语法关键字的提示、代码补全纠错等能力帮助用户提高开发的效率。

DataStudio 支持自定义数据开发流程,满足“千人千面”的需求,不管是任务的封装、发布、提交等,都可以与企业自定义的一些检查项和卡点流程进行配合,打造企业自定义的专属数据开发流程。同时DataStudio还具备多人协同开发的能力,在任务开发的过程当中,支持多成员的编辑和管理,以及多成员之间的代码评审、版本管理和发布等。

DataWorks 调度和运维


当用户在数据开发 DataStudio 上完成了代码的编辑以及调度的设置后,就可以把任务提交到生产系统中定时执行。DataWorks 针对生产任务提供了统一运维能力,帮助用户以图形化、可视化的方式来监控任务的运行情况。DataWorks 运维中心提供海量任务的依赖图的逐级展现、智能监控、告警通知以及智能诊断等等的一系列能力,单个运维人员就可以去管理和运维海量的数据任务,显著降低了运维成本。

当进入运维中心的实际产品界面后,我们能够看到,运维中心提供了丰富的能力来帮助用户提高运维效率。运维大屏通过可视化的仪表盘和重点运维指标的统计,来显示任务的运行状态和情况。智能监控能够帮助用户监测任务的出错、超时等异常运行状态,及时通知到运维值班人员。智能基线能够管理任务的优先级,敏捷识别并计算整体链路的关键上游路径,从上到下地监控整个数据链路的运行情况,并在遇到潜在运行延时风险时及时给出相应通知。当任务在运行过程中或者完成后出现了一些异常问题,智能诊断可以进行运行资源、定时时间、调度依赖等方面的检测,提供相应的诊断建议,帮助运维人员合理以及快速去进行线上任务的异常修复和止血。当然,当数据出现问题的时候,也可以做补数据或者是重跑等的快速的运维操作,及时补救生产的数据。


当数据产出之时,便承载着被消费的使命。借助 DataWorks 这一利器,我们能够对 StarRocks 中蕴藏的数据进行深度挖掘,不仅实现智能洞察与敏捷分析,还能以直观生动的方式呈现数据分析成果,并促进信息资源的开放共享,从而极大提升数据对于业务决策的支持力度及价值创造能力。


DataWorks 数据分析


DataWorks 的数据分析提供了轻量化的分析工具,能够便捷地连接 StarRocks 数据源,提供 SQL 查询、电子表格、增强分析等多种数据分析能力,帮助数据分析师、业务运营等人员开展日常业务取数和报表分析等工作。

在DataWorks 数据分析中,提供了智能数据洞察的功能,基于 AI 来帮助用户分析和判断数据分布情况、数据样本情况,并能够发现数据中的异常特征、潜在关联和变化趋势等。如果需要对数据进行表格化操作或者分析,SQL 查询结果能够保存为电子表格;在电子表格中,基于明细数据直接进行数据格式更改、聚合计算和协同编辑等操作。电子表格支持在团队或企业中授权共享,十分方便。除此之外,可以基于这些数据分析得到的数据结果来生成图表和报告,轻松打造业务所需要呈现的数据指标,更加直观体现业务状况。



DataWorks 数据服务


DataWorks 数据服务能够衔接 StarRocks 与数据应用间的“最后一公里”,用户能够将 StarRocks 数据表快速生成数据 API,同时支持编写函数对 API 进行加工处理,助力企业实现数据的快捷共享与开放。

当数据 API 封装完成之后,可以将 API 发布到线上获得相应的 URL 调用地址,也就是一个 HTTP 协议的数据接口。这个接口可以进一步被 APP 、报表、大屏等场景去使用,帮助用户便捷地搭建应用程序或系统平台,为用户提供获取以及刷新数据的接口。另外还可以把这些数据 API 上架到 API 市场上,数据消费者就能够通过这个接口获得相应订阅数据的呈现。除此之外,通过数据服务 API,在数仓和应用之间的构建一层安全屏障,避免应用直接访问原始数据库,从而实现安全和稳定的数据共享。

数据治理贯穿于数据资产从诞生至消逝的全生命周期,其方法论必然沉淀了组织智慧技术交融的结晶。它包括但不限于以下几个部分:

  1. 数据建模:在数仓建设初期,模型设计师需根据企业的业务需求与实际情况规划数据模型层次,将业务需求与实际规范相结合,设计出符合企业发展的数据模型。
  2. 数据及时产出:运维团队负责监控重要任务的执行情况,确保数据生产的顺利进行,并能快速定位并解决问题以保证数据产出的时效性。
  3. 数据质量保障:为确保高质量的数据输出,运维人员需设定严格的数据质量规则来阻止脏数据传播,并通过持续监测及订阅汇总机制迅速识别并处理潜在的质量问题。
  4. 数据全面理解:为了更好地利用生成的数据,企业应加强对其的理解能力,比如通过构建强大的检索系统、完善的数据字典以及详细的元数据和血缘关系追踪等手段,实现对数据更加深入全面的认识。
  5. 治理综合评估:管理层可通过综合治理评估体系来发现并改进现有的治理不足之处;同时也能量化分析现有策略的效果,并据此提出具体的优化建议。


DataWorks 沉淀了阿里巴巴15年大数据治理方法论,为企业数据治理积累了丰富的最佳实践。

DataWorks 数据建模


DataWorks 的数据建模功能沉淀了阿里巴巴数据中台的建模方法论,包含从数仓的规划、标准、建模、指标等几个方面的设计。从业务视角对业务数据进行构建和诠释,通过建模的逻辑模型的发布,从逻辑模型到物理表灵活打通,最终实现整个模型的设计和构建。

数据建模在数仓规划能力阶段,可以进行数仓分层、数据域和数据集市等定义,来进行数仓的分层划域,接下来通过数据标准来定一些标准代码和度量单位等,同时这些数据标准也可以一键落标,让数据模型和数据指标被严格规范和统一约束。

在进行维度建模时,可以通过正向建模,将逻辑模型发布到多个物理引擎的数据源中,如发布到 StarRocks 中生成物理表。同时数据源中已有的数据表,也可以逆向生成相应的逻辑模型。DataWorks 的维度建模和数据开发还可以实现无缝打通,可以帮助用户自动生成ETL框架代码。

数据指标的定义可以辅助进行更规范和可解释的数据建模,比如定义原子指标、派生指标和复合指标等,将这些指标关联和绑定在模型表上,从而进一步地诠释和规范不同字段的业务口径,确保业务口径的统一。

为了方便用户做数据建模,DataWorks 在数据建模模块提供了如零售、汽车等面向各行业的模型模板,通过直接引入和导入模板,在模板上进行调整和修改,就可以因地制宜地生成企业所需的数据建模框架,极大减少前期投入的建模的人力成本和时间成本,帮助用户从0到1来进行建模工作。


DataWorks 数据质量


在全链路的数据开发过程中,保障数据的高质量和可用性是很重要的一个环节。首先在事前可以定义一些质量规则,DataWorks 内置37种表级和字段级别的模板规则,用户可以直接使用同时也可以自定义数据质量的规则。不管是内置规则还是自定义规则,都可以被绑定到目标表上,并且关联到相应的调度系统,目标表在调度系统当中执行和产出时,涉及到的质量规则就会被自动触发、运行和扫描。

当质量规则校验到目标表出现了质量问题,会及时进行问题的阻断,系统会通知相关的值班人员和运维人员等,同时及时停止下游任务的运行,防止上游的脏数据传到下游,污染下游的数据链路。除此之外,在发生了数据质量的异常情况后,DataWorks 会提供运行结果的统计看板,及时提示和修复已有的问题,用户也可以通过这个看板摸排和监控哪些数据表或是哪些数据源还有待质量规则的覆盖,从而提升数据质量的覆盖度和可监控性。


DataWorks 数据地图


数据地图可以将 StarRocks 中的数据资产进行有序组织,帮助开发者或者是业务人员能快速查找目标表,并且基于这些表去做深刻的数据理解和使用,从而助力 StarRocks 数据的便捷消费。

数据发现和元数据采集的过程中,数据地图会帮助我们在不同的数据源和网络环境下,自动做元数据采集以及相应数据目录的构建。基于采集到的元数据,就可以对表、字段、描述等元素进行全局的检索和匹配,从而快速找到符合这些要素的 StarRocks 数据表。

当找到一些数据表之后,可以继续查看明细信息。进入表详情页,查看相应的元数据的详情,包括基础表信息、字段信息、产出信息及使用记录等。除此之外,还可以进行数据血缘链路的构建和追溯,在生产数据的过程当中,记录 StarRocks 表的全链路的血缘关系,及时追溯血缘的来源和去向,完整表达数据流转和数据变化的情况。与此同时,数据地图也可以做类目管理,通过创建数据专辑,把用户的个人表或是团队常用的表添加到相应的数据专辑中,这样一个小范围的管理,可以方便用户快捷维护相关数据,进行核心数据的统一管理。


DataWorks 数据资产治理


数据治理中心的目标是帮助用户对 DataWorks 治理成效有合理的评估和建议。数据治理中心包含健康分的整体评估,涵盖五个维度,包括质量、计算、存储、研发以及安全,通过量化的健康分体系 ,帮助用户直观了解目前的数据治理成效,并对可治理对象做针对性的治理改进。

数据治理中心会涵盖面向 StarRocks 任务调度和开发中的通用问题的发现如同步任务、API服务、调度任务等的问题发现和治理,自动发现数据问题,同时提供治理问题处理优化的建议,给出合理有效的操作措施。通过对建议项及时的采纳,治理成效会获得持续不断的提升。


DataWorks + StarRocks 应用案例


某游戏厂商在游戏发行运营过程中,需要进行广告买量,在社交App上投放一个广告位进行游戏宣传,然后用户可能会点击该游戏宣传并下载游戏。游戏厂商需要将用户下载游戏归因到最近的一次点击是发生在某平台上的,来做广告买量的运营分析。但是用户行为曝光和点击事件表数据量非常大,写入频率非常高归因分析需要曝光和点击事件表相关联,数据量大对 Join 的性能要求高广告归因分析以末次归因模型为主,窗口和排序的计算性能要求比较高归因时间窗口差异比较大,有1小时,7天,15天,30天,需要系统具备灵活的存储和读取能力。客户采用 StarRocks 和 DataWorks 相结合的方式,使用 DataWorks 来进行数据的集成和同步,将海量的数据进行了实时同步,再通过 StarRocks 引擎进行高性能的分析,从而实现快速评估广告投放的效果,并且及时调整投放的策略,提升了整体的 ROI。


某金融客户依托金融科技,围绕供应链 SaaS 平台,打造大数据+业务双中台,提供数据、风控、流程、管理等多个领域的产品平台。国内业务增长瓶颈,业务重心转向海外,陆续在美国、日本、澳洲、马来等地域扩展证券交易业务;业务实时场景越来越多,对于数据采集和加工效率有大幅提升的诉求,在现有架构上难以实现;IDC 机器马上过保,重新采购成本极高,有明确的成本优化目标。需要一个提供一站式数据采集平台+实时离线一体化大数据开发治理平台,包含全链路数据接入数据存储数据开发数据运维管理的方案数据治理等能力,来满足业务的需求。最终采用 DataWorks+EMR StarRocks+Flink 实时数仓湖仓一体的解决方案,一方面,将业务数据通过 DataWorks 的数据集成来实时同步到 StarRocks。另一方面,每天第三方的全量快照数据也可以同步到 Hive 进行清洗和分析,来加工成企业的画像数据。最后  DataWorks 作为统一的数据接入、数据开发和监控运维平台,来对接企业内部平台和系统。整个解决方案极大帮助客户来实现平台的稳定性和高效运维的能力。



欢迎试用

                         

EMR Serverless StarRocks                  大数据开发治理平台DataWorks

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
1月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
187 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
2月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
153 2
|
3月前
|
存储 数据采集 OLAP
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构,随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据,但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统,提升了数据一致性和研发效率,但仍面临新业务适应性等问题。最终,饿了么选择Paimon和StarRocks作为实时湖仓方案,显著降低了存储成本并提高了系统稳定性。未来,将进一步优化带宽瓶颈、小文件问题及权限控制,实现更多场景的应用。
376 7
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
|
3月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
382 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
4月前
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之在本地客户端一直无法连接ADB MySQL,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 分布式计算 DataWorks
实时数仓 Hologres产品使用合集之如何让holoweb和dataworks能够正常访问
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
5月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
2天前
|
分布式计算 DataWorks 大数据
DataWorks产品体验评测报告
DataWorks产品体验评测报告
26 8
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

相关产品

  • 大数据开发治理平台 DataWorks