DataWorks这个是可以设置的吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
是的,DataWorks 提供了多种设置选项,用户可以根据需求进行配置。以下从不同功能模块的角度为您详细说明 DataWorks 的可设置内容:
DataWorks 的设置功能可以通过以下方式访问: - 进入 数据开发界面,在左下角点击齿轮图标即可跳转到 DataWorks 设置界面。
在离线同步任务中,您可以对任务的性能进行优化和限速设置: - BatchSize 或 maxfilesize 参数:用于控制一次性批量提交的记录数大小。适当调整该值可以减少网络交互次数并提升吞吐量,但设置过大可能导致 OOM(内存溢出)异常。 - 并发度设置:在独享资源组中,任务的并发度与 CPU 和内存占用相关。单个任务的内存占用公式为:Min{768 + (并发数 - 1) * 256, 8029} MB
。您可以通过脚本模式中的 $.setting.jvmOption
覆盖默认的内存占用关系。 - 限流设置:在脚本模式中,通过 throttle
参数控制是否限流。当 throttle
为 true
时,可通过 mbps
参数限制同步速度(单位为 MB/s)。
在使用 RestAPI 数据源时,您可以根据需求进行以下设置: - 翻页配置:支持指定请求数据的翻页次数。 - 非数组类型数据处理:在 reader
的 parameter
中,将 dataPath
设置为指向非数组类型数据的路径,并将 dataMode
设置为 multiData
。例如:
reader: {
name: "restapi",
parameter: {
dataPath: "data.list",
dataMode: "multiData"
}
}
注意:在 multiData
模式下,column
配置不再适用,需直接在 dataPath
中指定读取路径。
DataWorks 提供了丰富的安全配置选项,包括: - 页面查询内容脱敏:启用后,返回结果中的敏感信息将被脱敏展示。此功能需在每个工作空间中单独开启。 - 代码与日志的安全隔离:确保代码和日志在运行过程中相互隔离。 - 代码强制评审:在任务提交发布时,强制进行代码评审以保障代码质量。 - 强制冒烟测试:在任务发布前执行冒烟测试,确保任务的正确性。
进入安全设置页面的步骤如下: 1. 登录 DataWorks 控制台,切换至目标地域。 2. 单击左侧导航栏的 数据开发与治理 > 数据开发,选择对应工作空间后进入 数据开发。 3. 在 DataStudio 界面左侧导航栏底部单击图标,进入 设置 页面。 4. 单击 安全设置与其他,即可进行相关配置。
DataWorks 支持按工作空间粒度设置全局 Spark 参数,具体操作如下: - 配置优先级:您可以定义全局 Spark 参数的优先级是否高于模块内(如数据开发、数据分析等)的参数。 - 权限要求:仅阿里云主账号、拥有 AliyunDataWorksFullAccess
权限的子账号或 RAM 角色、以及拥有 空间管理员 角色的子账号可配置全局 Spark 参数。 - 生效范围:全局 Spark 参数仅对 EMR Spark 节点、EMR Spark SQL 节点、EMR Spark Streaming 节点生效。
DataWorks 提供了完善的数据安全能力,主要包括: - 数据权限管控: - 开源 Ranger 方案:通过 Ranger 服务管理 HDFS、Yarn、Hive 等数据权限。 - DLF Auth 方案:通过 DLF Auth 服务管理库、表、列、函数等数据权限,授权操作可通过 DataWorks 安全中心完成。 - 任务管理: - 工作空间规划:实现人员管理、大数据作业可见性和可运维性。 - 安全中心:设置 DLF 表的访问权限。 - 集群访问身份映射:注册 EMR 集群时,可指定生产任务运行时的集群访问身份(如任务责任人、阿里云主账号或子账号)。
DataWorks 提供了丰富的设置选项,涵盖任务性能优化、数据源配置、安全设置、Spark 参数配置以及数据安全管理等多个方面。用户可以根据实际需求,在对应的模块中进行灵活配置。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。