dataworks 支持 starrocks 极速查询方案？

dataworks 支持 starrocks 极速查询方案？
https://help.aliyun.com/zh/dataworks/use-cases/dataworks-on-emr-serverless-starrocks-best-practices

展开

收起

真的很搞笑 2023-09-30 08:30:23 126 版权

阿里云 AI 助理回答

DataWorks 支持通过 EMR Serverless StarRocks 实现极速查询方案，结合 StarRocks 的高性能分析能力和 DataWorks 的一站式大数据开发治理能力，能够高效完成数据集成、开发、分析和服务。以下是具体的实现方案和操作步骤：

1. 背景与支持版本

DataWorks 支持以下 StarRocks 版本的极速查询方案： - EMR Serverless StarRocks：2.5 和 3.1 版本。 - EMR on ECS：StarRocks 2.1 版本。 - 社区版 StarRocks：需部署在 EMR on ECS 上，若出现适配性问题，可提交工单反馈。

重要提示： - DataWorks 仅支持内网连接 StarRocks，因此社区版 StarRocks 需要部署在 EMR on ECS 上以确保网络连通性。

2. 前提条件

在使用 DataWorks 进行 StarRocks 极速查询前，需要完成以下准备工作： 1. 开通 DataWorks 并创建工作空间：确保已开通 DataWorks 服务并创建好工作空间。 2. 购买资源组并完成配置：购买 DataWorks 资源组，并完成资源组的空间绑定和网络配置。 3. 创建 EMR Serverless StarRocks 实例：根据业务需求选择合适的实例类型（如存算一体或存算分离模式）。 4. 白名单配置：将 DataWorks 资源组的白名单 IP 地址添加至 EMR Serverless StarRocks 实例的白名单中，允许访问 9030、8030、8040 等端口。

3. 创建 StarRocks 数据源

在 DataWorks 中使用 EMR Serverless StarRocks，需要先创建 StarRocks 类型的数据源： 1. 登录 DataWorks 控制台，进入 数据源管理 页面。 2. 单击 新增数据源，选择 StarRocks 类型。 3. 配置 JDBC URL，格式如下：

jdbc:mysql://<FE URL>:<FE查询端口>/<数据库名称>

FE 信息和数据库名称可在 EMR Serverless StarRocks 实例详情页中获取。
测试数据源与资源组的连通性，确保状态为“可连通”。

4. 数据集成

DataWorks 提供数据集成模块，支持将多种数据源的数据同步至 EMR Serverless StarRocks 表中： 1. 进入 数据开发 页面，创建离线同步节点。 2. 选择资源组，并分别测试与来源数据源、目标数据源的连通性。 3. 设置调度周期，提交并发布节点。

5. 数据开发与调度运维

对于需要周期调度的任务，可以在 DataStudio 模块中创建 StarRocks 节点： 1. 进入 数据开发 页面，创建 StarRocks 节点。 2. 选择已连接的 StarRocks 数据源，编写 SQL 任务。 3. 调试 SQL 任务，设置调度周期，提交并发布节点。

6. 数据分析

使用 DataWorks 的数据分析子模块对 EMR Serverless StarRocks 表数据进行快速分析： 1. 进入 SQL 查询 页面，设置 StarRocks 类的查询资源组。 2. 切换引擎类型为 StarRocks，并选择数据源。 3. 编辑查询语句并运行，进行数据分析。

7. 数据服务

DataWorks 支持生成 StarRocks 数据源类型的 API，实现数据共享与开放： 1. 进入 数据服务 页面，生成一个 API 并配置 API 参数。 2. 选择数据源类型为 StarRocks，配置 API 的请求参数和返回参数。 3. 配置资源组为独享数据服务资源组，测试 API 成功后，提交并发布 API。

8. 数据地图

DataWorks 的数据地图模块支持对 StarRocks 数据的元数据采集、搜索和表详情页展示： 1. 进入 数据地图 页面，管理 StarRocks 模块，进行元数据采集。 2. 在数据地图首页或搜索中找到目标表，查看表详情页，包括表基础信息、技术信息、业务信息等。

9. 方案特点

极速查询性能：StarRocks 的 MPP 架构和向量化执行引擎能够提供毫秒级的查询响应时间。
灵活扩展：EMR Serverless StarRocks 支持存算分离架构，降低存储成本的同时保持高性能。
全链路支持：从数据集成到数据分析再到数据服务，DataWorks 提供了一站式解决方案。

10. 注意事项

地域限制：目前仅华北3（张家口）地域支持使用 EMR Serverless Spark。
Kerberos 认证：如果 EMR 集群开启了 Kerberos 认证，需要在安全组中放开 UDP 协议端口的入权限。
实时任务迁移：在迁移过程中，建议对实时写入任务进行双写配置，确保数据一致性。

通过以上步骤，您可以在 DataWorks 上高效地管理和使用 EMR Serverless StarRocks，实现极速查询和数据分析的能力。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

DataWorks 大数据开发治理平台 DataWorks 函数计算

问答标签：

大数据开发治理平台 DataWorks starrocks 大数据开发治理平台 DataWorks方案大数据开发治理平台 DataWorks查询

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

阿里云AI Agent 搭建全套餐费用价格及使用教程（qwen-plus+函数计算CU+NAS资源包）

阿里云AI Agent搭建不踩坑：全套餐（qwen-plus + 函数计算 + NAS）费用 + 教程

阿里云 AI Agent 全套餐指南：qwen-plus、函数计算 CU、NAS资源包价格及使用教程

关于阿里云 ODPS（MaxCompute）的全面介绍和应用