dataworks 支持 starrocks 极速查询方案?

展开
收起
真的很搞笑 2023-09-30 08:30:23 126 分享 版权
阿里云 AI 助理回答

DataWorks 支持通过 EMR Serverless StarRocks 实现极速查询方案,结合 StarRocks 的高性能分析能力和 DataWorks 的一站式大数据开发治理能力,能够高效完成数据集成、开发、分析和服务。以下是具体的实现方案和操作步骤:


1. 背景与支持版本

DataWorks 支持以下 StarRocks 版本的极速查询方案: - EMR Serverless StarRocks:2.5 和 3.1 版本。 - EMR on ECS:StarRocks 2.1 版本。 - 社区版 StarRocks:需部署在 EMR on ECS 上,若出现适配性问题,可提交工单反馈。

重要提示: - DataWorks 仅支持内网连接 StarRocks,因此社区版 StarRocks 需要部署在 EMR on ECS 上以确保网络连通性。


2. 前提条件

在使用 DataWorks 进行 StarRocks 极速查询前,需要完成以下准备工作: 1. 开通 DataWorks 并创建工作空间:确保已开通 DataWorks 服务并创建好工作空间。 2. 购买资源组并完成配置:购买 DataWorks 资源组,并完成资源组的空间绑定和网络配置。 3. 创建 EMR Serverless StarRocks 实例:根据业务需求选择合适的实例类型(如存算一体或存算分离模式)。 4. 白名单配置:将 DataWorks 资源组的白名单 IP 地址添加至 EMR Serverless StarRocks 实例的白名单中,允许访问 9030、8030、8040 等端口。


3. 创建 StarRocks 数据源

在 DataWorks 中使用 EMR Serverless StarRocks,需要先创建 StarRocks 类型的数据源: 1. 登录 DataWorks 控制台,进入 数据源管理 页面。 2. 单击 新增数据源,选择 StarRocks 类型。 3. 配置 JDBC URL,格式如下:

jdbc:mysql://<FE URL>:<FE查询端口>/<数据库名称>
  • FE 信息和数据库名称可在 EMR Serverless StarRocks 实例详情页中获取。
  • 测试数据源与资源组的连通性,确保状态为“可连通”。

4. 数据集成

DataWorks 提供数据集成模块,支持将多种数据源的数据同步至 EMR Serverless StarRocks 表中: 1. 进入 数据开发 页面,创建离线同步节点。 2. 选择资源组,并分别测试与来源数据源、目标数据源的连通性。 3. 设置调度周期,提交并发布节点。


5. 数据开发与调度运维

对于需要周期调度的任务,可以在 DataStudio 模块中创建 StarRocks 节点: 1. 进入 数据开发 页面,创建 StarRocks 节点。 2. 选择已连接的 StarRocks 数据源,编写 SQL 任务。 3. 调试 SQL 任务,设置调度周期,提交并发布节点。


6. 数据分析

使用 DataWorks 的数据分析子模块对 EMR Serverless StarRocks 表数据进行快速分析: 1. 进入 SQL 查询 页面,设置 StarRocks 类的查询资源组。 2. 切换引擎类型为 StarRocks,并选择数据源。 3. 编辑查询语句并运行,进行数据分析。


7. 数据服务

DataWorks 支持生成 StarRocks 数据源类型的 API,实现数据共享与开放: 1. 进入 数据服务 页面,生成一个 API 并配置 API 参数。 2. 选择数据源类型为 StarRocks,配置 API 的请求参数和返回参数。 3. 配置资源组为独享数据服务资源组,测试 API 成功后,提交并发布 API。


8. 数据地图

DataWorks 的数据地图模块支持对 StarRocks 数据的元数据采集、搜索和表详情页展示: 1. 进入 数据地图 页面,管理 StarRocks 模块,进行元数据采集。 2. 在数据地图首页或搜索中找到目标表,查看表详情页,包括表基础信息、技术信息、业务信息等。


9. 方案特点

  • 极速查询性能:StarRocks 的 MPP 架构和向量化执行引擎能够提供毫秒级的查询响应时间。
  • 灵活扩展:EMR Serverless StarRocks 支持存算分离架构,降低存储成本的同时保持高性能。
  • 全链路支持:从数据集成到数据分析再到数据服务,DataWorks 提供了一站式解决方案。

10. 注意事项

  • 地域限制:目前仅华北3(张家口)地域支持使用 EMR Serverless Spark。
  • Kerberos 认证:如果 EMR 集群开启了 Kerberos 认证,需要在安全组中放开 UDP 协议端口的入权限。
  • 实时任务迁移:在迁移过程中,建议对实时写入任务进行双写配置,确保数据一致性。

通过以上步骤,您可以在 DataWorks 上高效地管理和使用 EMR Serverless StarRocks,实现极速查询和数据分析的能力。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理