开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

请问FTP Reader背景信息是什么?

请问FTP Reader背景信息是什么?

展开
收起
哒哒哒哒哒~ 2023-03-08 10:10:53 237 0
4 条回答
写回答
取消 提交回答
  • FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。FTP Reader实现了从远程FTP文件读取数据并转为数据同步协议的功能,远程FTP文件本身是无结构化数据存储。对于数据同步而言,目前FTP Reader支持的功能如下所示:支持且仅支持读取TXT的文件,并要求TXT中的schema为一张二维表。支持类CSV格式文件,自定义分隔符。支持多种类型数据读取(使用STRING表示)、支持列裁剪和列常量。支持递归读取、支持文件名过滤。支持文本压缩,现有压缩格式为gzip、bzip2、zip、lzo和lzo_deflate。多个File可以支持并发读取。暂时不支持以下功能:单个File支持多线程并发读取,此处涉及到单个File内部切分算法。单个File在压缩情况下,从技术上无法支持多线程并发读取。 此答案整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-03-09 09:31:12
    赞同 展开评论 打赏
  • FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。

    本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。

    FTP Reader实现了从远程FTP文件读取数据并转为数据同步协议的功能,远程FTP文件本身是无结构化数据存储。对于数据同步而言,目前FTP Reader支持的功能如下所示:

    支持且仅支持读取TXT的文件,并要求TXT中的schema为一张二维表。 - 支持类CSV格式文件,自定义分隔符。 - 支持多种类型数据读取(使用STRING表示)、支持列裁剪和列常量。 - 支持递归读取、支持文件名过滤。 - 支持文本压缩,现有压缩格式为gzip、bzip2、zip、lzo和lzo_deflate。 - 多个File可以支持并发读取。

    暂时不支持以下功能:

    • 单个File支持多线程并发读取,此处涉及到单个File内部切分算法。
    • 单个File在压缩情况下,从技术上无法支持多线程并发读取。
    2023-03-08 13:28:29
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。

    2023-03-08 13:27:20
    赞同 展开评论 打赏
  • 坚持这件事孤独又漫长。
    • 阿里云DataWorks中FTP Reader是一种数据源,可用于从FTP(文件传输协议)服务器中读取数据,支持的文件格式包括csv、txt、xlsx等。

    • 在数据集成场景中,许多企业的数据存储在FTP服务器上。使用FTP Reader,可以轻松地将存储在FTP服务器上的数据导入到DataWorks中,以进行后续的数据开发和处理。同时,FTP Reader也提供了高效的增量同步能力,即只读取最新的增量数据。

    • 需要注意的是,使用FTP Reader时需要准确配置FTP服务器的地址、端口、用户名和密码等信息,以确保能够正确访问FTP服务器并读取数据。

    2023-03-08 10:53:38
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载