DataWorks这个是可以设置的吗?

DataWorks这个是可以设置的吗?image.png

展开
收起
真的很搞笑 2024-05-13 12:02:31 49 分享 版权
阿里云 AI 助理回答

是的,DataWorks 提供了多种设置选项,用户可以根据需求进行配置。以下从不同功能模块的角度为您详细说明 DataWorks 的可设置内容:


1. DataWorks 设置入口

DataWorks 的设置功能可以通过以下方式访问: - 进入 数据开发界面,在左下角点击齿轮图标即可跳转到 DataWorks 设置界面


2. 离线同步任务的性能优化设置

在离线同步任务中,您可以对任务的性能进行优化和限速设置: - BatchSize 或 maxfilesize 参数:用于控制一次性批量提交的记录数大小。适当调整该值可以减少网络交互次数并提升吞吐量,但设置过大可能导致 OOM(内存溢出)异常。 - 并发度设置:在独享资源组中,任务的并发度与 CPU 和内存占用相关。单个任务的内存占用公式为:Min{768 + (并发数 - 1) * 256, 8029} MB。您可以通过脚本模式中的 $.setting.jvmOption 覆盖默认的内存占用关系。 - 限流设置:在脚本模式中,通过 throttle 参数控制是否限流。当 throttletrue 时,可通过 mbps 参数限制同步速度(单位为 MB/s)。


3. RestAPI 数据源的配置

在使用 RestAPI 数据源时,您可以根据需求进行以下设置: - 翻页配置:支持指定请求数据的翻页次数。 - 非数组类型数据处理:在 readerparameter 中,将 dataPath 设置为指向非数组类型数据的路径,并将 dataMode 设置为 multiData。例如:

reader: {
  name: "restapi",
  parameter: {
    dataPath: "data.list",
    dataMode: "multiData"
  }
}

注意:在 multiData 模式下,column 配置不再适用,需直接在 dataPath 中指定读取路径。


4. 安全设置与其他

DataWorks 提供了丰富的安全配置选项,包括: - 页面查询内容脱敏:启用后,返回结果中的敏感信息将被脱敏展示。此功能需在每个工作空间中单独开启。 - 代码与日志的安全隔离:确保代码和日志在运行过程中相互隔离。 - 代码强制评审:在任务提交发布时,强制进行代码评审以保障代码质量。 - 强制冒烟测试:在任务发布前执行冒烟测试,确保任务的正确性。

进入安全设置页面的步骤如下: 1. 登录 DataWorks 控制台,切换至目标地域。 2. 单击左侧导航栏的 数据开发与治理 > 数据开发,选择对应工作空间后进入 数据开发。 3. 在 DataStudio 界面左侧导航栏底部单击图标,进入 设置 页面。 4. 单击 安全设置与其他,即可进行相关配置。


5. 全局 Spark 参数设置

DataWorks 支持按工作空间粒度设置全局 Spark 参数,具体操作如下: - 配置优先级:您可以定义全局 Spark 参数的优先级是否高于模块内(如数据开发、数据分析等)的参数。 - 权限要求:仅阿里云主账号、拥有 AliyunDataWorksFullAccess 权限的子账号或 RAM 角色、以及拥有 空间管理员 角色的子账号可配置全局 Spark 参数。 - 生效范围:全局 Spark 参数仅对 EMR Spark 节点、EMR Spark SQL 节点、EMR Spark Streaming 节点生效。


6. 数据安全方案

DataWorks 提供了完善的数据安全能力,主要包括: - 数据权限管控: - 开源 Ranger 方案:通过 Ranger 服务管理 HDFS、Yarn、Hive 等数据权限。 - DLF Auth 方案:通过 DLF Auth 服务管理库、表、列、函数等数据权限,授权操作可通过 DataWorks 安全中心完成。 - 任务管理: - 工作空间规划:实现人员管理、大数据作业可见性和可运维性。 - 安全中心:设置 DLF 表的访问权限。 - 集群访问身份映射:注册 EMR 集群时,可指定生产任务运行时的集群访问身份(如任务责任人、阿里云主账号或子账号)。


总结

DataWorks 提供了丰富的设置选项,涵盖任务性能优化、数据源配置、安全设置、Spark 参数配置以及数据安全管理等多个方面。用户可以根据实际需求,在对应的模块中进行灵活配置。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理