开发者社区大数据与机器学习大数据开发治理DataWorks 正文

DataWorks这个是可以设置的吗？

展开

收起

真的很搞笑 2024-05-13 12:02:31 55 版权

阿里云 AI 助理回答

是的，DataWorks 提供了多种设置选项，用户可以根据需求进行配置。以下从不同功能模块的角度为您详细说明 DataWorks 的可设置内容：

1. DataWorks 设置入口

DataWorks 的设置功能可以通过以下方式访问： - 进入 数据开发界面，在左下角点击齿轮图标即可跳转到 DataWorks 设置界面。

2. 离线同步任务的性能优化设置

在离线同步任务中，您可以对任务的性能进行优化和限速设置： - BatchSize 或 maxfilesize 参数：用于控制一次性批量提交的记录数大小。适当调整该值可以减少网络交互次数并提升吞吐量，但设置过大可能导致 OOM（内存溢出）异常。 - 并发度设置：在独享资源组中，任务的并发度与 CPU 和内存占用相关。单个任务的内存占用公式为：Min{768 + (并发数 - 1) * 256, 8029} MB。您可以通过脚本模式中的 $.setting.jvmOption 覆盖默认的内存占用关系。 - 限流设置：在脚本模式中，通过 throttle 参数控制是否限流。当 throttle 为 true 时，可通过 mbps 参数限制同步速度（单位为 MB/s）。

3. RestAPI 数据源的配置

在使用 RestAPI 数据源时，您可以根据需求进行以下设置： - 翻页配置：支持指定请求数据的翻页次数。 - 非数组类型数据处理：在 reader 的 parameter 中，将 dataPath 设置为指向非数组类型数据的路径，并将 dataMode 设置为 multiData。例如：

reader: {
  name: "restapi",
  parameter: {
    dataPath: "data.list",
    dataMode: "multiData"
  }
}

注意：在 multiData 模式下，column 配置不再适用，需直接在 dataPath 中指定读取路径。

4. 安全设置与其他

DataWorks 提供了丰富的安全配置选项，包括： - 页面查询内容脱敏：启用后，返回结果中的敏感信息将被脱敏展示。此功能需在每个工作空间中单独开启。 - 代码与日志的安全隔离：确保代码和日志在运行过程中相互隔离。 - 代码强制评审：在任务提交发布时，强制进行代码评审以保障代码质量。 - 强制冒烟测试：在任务发布前执行冒烟测试，确保任务的正确性。

进入安全设置页面的步骤如下： 1. 登录 DataWorks 控制台，切换至目标地域。 2. 单击左侧导航栏的 数据开发与治理 > 数据开发，选择对应工作空间后进入 数据开发。 3. 在 DataStudio 界面左侧导航栏底部单击图标，进入设置页面。 4. 单击 安全设置与其他，即可进行相关配置。

5. 全局 Spark 参数设置

DataWorks 支持按工作空间粒度设置全局 Spark 参数，具体操作如下： - 配置优先级：您可以定义全局 Spark 参数的优先级是否高于模块内（如数据开发、数据分析等）的参数。 - 权限要求：仅阿里云主账号、拥有 AliyunDataWorksFullAccess 权限的子账号或 RAM 角色、以及拥有 空间管理员 角色的子账号可配置全局 Spark 参数。 - 生效范围：全局 Spark 参数仅对 EMR Spark 节点、EMR Spark SQL 节点、EMR Spark Streaming 节点生效。

6. 数据安全方案

DataWorks 提供了完善的数据安全能力，主要包括： - 数据权限管控： - 开源 Ranger 方案：通过 Ranger 服务管理 HDFS、Yarn、Hive 等数据权限。 - DLF Auth 方案：通过 DLF Auth 服务管理库、表、列、函数等数据权限，授权操作可通过 DataWorks 安全中心完成。 - 任务管理： - 工作空间规划：实现人员管理、大数据作业可见性和可运维性。 - 安全中心：设置 DLF 表的访问权限。 - 集群访问身份映射：注册 EMR 集群时，可指定生产任务运行时的集群访问身份（如任务责任人、阿里云主账号或子账号）。