开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks配置HDFS数据源操作步骤是什么?

DataWorks配置HDFS数据源操作步骤是什么?

展开
收起
真的很搞笑 2023-07-17 16:22:52 104 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks中,配置HDFS数据源可以帮助用户方便地访问和管理HDFS中的数据。以下是配置HDFS数据源的操作步骤:

    登录DataWorks控制台,在左侧导航栏中选择“数据集成”,进入数据集成页面。

    在数据集成页面中,选择“数据源管理”,进入数据源管理页面。

    在数据源管理页面中,点击“新建数据源”按钮,选择“HDFS”类型的数据源。

    在新建HDFS数据源页面中,输入数据源名称和描述信息,选择相应的HDFS版本和认证方式。

    针对不同的认证方式,填写相应的认证信息。例如,如果是使用Kerberos认证方式,需要填写Kerberos认证信息,如Kerberos principal、Kerberos keytab等。

    在“高级属性配置”中,可以设置HDFS连接的一些高级属性,例如HDFS访问方式、HDFS默认文件系统等。也可以直接使用默认的配置。

    点击“测试连接”按钮,测试HDFS数据源的连接是否正常。

    测试连接成功后,点击“确认”按钮,完成HDFS数据源的创建。

    在HDFS数据源创建完成后,可以在数据集成页面中,使用HDFS数据源进行数据同步、数据抽取等操作。

    2023-07-21 08:00:55
    赞同 展开评论 打赏
  • 在 DataWorks 中配置 HDFS 数据源,可以按照以下步骤进行操作:

    1. 登录到 DataWorks 控制台。

    2. 在项目列表中选择需要配置 HDFS 数据源的项目,并进入该项目的数据开发页面。

    3. 在数据开发页面的左侧导航栏中,点击"数据集成"选项。

    4. 在数据集成页面,选择要创建数据源的工作空间,然后点击"新建数据源"按钮。

    5. 在新建数据源页面,选择"HDFS"作为数据源类型。

    6. 填写相应的数据源信息,包括数据源名称、HDFS 连接地址、端口号、用户名和密码等。确保这些信息与你的 HDFS 集群的配置一致。

    7. 点击"测试连通性"按钮,验证数据源的连通性。如果测试成功,则表示能够正常连接到 HDFS 数据源。

    8. 确认无误后,点击"确定"按钮,保存数据源配置。

    2023-07-17 23:05:04
    赞同 展开评论 打赏
  • 进入数据源管理页面。登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入数据集成。在左侧导航栏,单击数据源 > 数据源列表,进入工作空间管理 > 数据源管理页面。在数据源管理页面,单击右上角的新增数据源。在新增数据源对话框中,选择数据源类型为HDFS。在新增HDFS数据源对话框中,配置各项参数。HDFS数据源包括连接串模式和CDH集群内置模式两种类型:以新增HDFS > 连接串模式类型的数据源为例。image.png
    参数 描述
    数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发或生产环境。
    DefaultFS Hadoop HDFS文件系统中nameNode节点地址,格式为hdfs://ServerIP:Port。
    连接扩展参数 HDFS插件的hadoopConfig配置参数,您可以配置与Hadoop相关的高级参数,例如Hadoop HA的配置。
    特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见配置Kerberos认证。
    keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。 如果没有可用的keytab文件,请单击新增认证文件进行添加。
    conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。 如果没有可用的conf文件,请单击新增认证文件进行添加。
    principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如/hadoopclient@.* 。以新增HDFS > CDH集群内置模式类型的数据源为例。image.png
    参数 描述
    数据源名称 数据源名称必须以字母、
    https://help.aliyun.com/document_detail/137684.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-17 16:30:20
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多