在DataWorks中,配置HDFS数据源可以帮助用户方便地访问和管理HDFS中的数据。以下是配置HDFS数据源的操作步骤:
登录DataWorks控制台,在左侧导航栏中选择“数据集成”,进入数据集成页面。
在数据集成页面中,选择“数据源管理”,进入数据源管理页面。
在数据源管理页面中,点击“新建数据源”按钮,选择“HDFS”类型的数据源。
在新建HDFS数据源页面中,输入数据源名称和描述信息,选择相应的HDFS版本和认证方式。
针对不同的认证方式,填写相应的认证信息。例如,如果是使用Kerberos认证方式,需要填写Kerberos认证信息,如Kerberos principal、Kerberos keytab等。
在“高级属性配置”中,可以设置HDFS连接的一些高级属性,例如HDFS访问方式、HDFS默认文件系统等。也可以直接使用默认的配置。
点击“测试连接”按钮,测试HDFS数据源的连接是否正常。
测试连接成功后,点击“确认”按钮,完成HDFS数据源的创建。
在HDFS数据源创建完成后,可以在数据集成页面中,使用HDFS数据源进行数据同步、数据抽取等操作。
在 DataWorks 中配置 HDFS 数据源,可以按照以下步骤进行操作:
登录到 DataWorks 控制台。
在项目列表中选择需要配置 HDFS 数据源的项目,并进入该项目的数据开发页面。
在数据开发页面的左侧导航栏中,点击"数据集成"选项。
在数据集成页面,选择要创建数据源的工作空间,然后点击"新建数据源"按钮。
在新建数据源页面,选择"HDFS"作为数据源类型。
填写相应的数据源信息,包括数据源名称、HDFS 连接地址、端口号、用户名和密码等。确保这些信息与你的 HDFS 集群的配置一致。
点击"测试连通性"按钮,验证数据源的连通性。如果测试成功,则表示能够正常连接到 HDFS 数据源。
确认无误后,点击"确定"按钮,保存数据源配置。
进入数据源管理页面。登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入数据集成。在左侧导航栏,单击数据源 > 数据源列表,进入工作空间管理 > 数据源管理页面。在数据源管理页面,单击右上角的新增数据源。在新增数据源对话框中,选择数据源类型为HDFS。在新增HDFS数据源对话框中,配置各项参数。HDFS数据源包括连接串模式和CDH集群内置模式两种类型:以新增HDFS > 连接串模式类型的数据源为例。
参数 描述
数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
数据源描述 对数据源进行简单描述,不得超过80个字符。
适用环境 可以选择开发或生产环境。
DefaultFS Hadoop HDFS文件系统中nameNode节点地址,格式为hdfs://ServerIP:Port。
连接扩展参数 HDFS插件的hadoopConfig配置参数,您可以配置与Hadoop相关的高级参数,例如Hadoop HA的配置。
特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见配置Kerberos认证。
keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。 如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。 如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如/hadoopclient@.* 。以新增HDFS > CDH集群内置模式类型的数据源为例。
参数 描述
数据源名称 数据源名称必须以字母、
https://help.aliyun.com/document_detail/137684.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。