FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。FTP Reader实现了从远程FTP文件读取数据并转为数据同步协议的功能,远程FTP文件本身是无结构化数据存储。对于数据同步而言,目前FTP Reader支持的功能如下所示:支持且仅支持读取TXT的文件,并要求TXT中的schema为一张二维表。支持类CSV格式文件,自定义分隔符。支持多种类型数据读取(使用STRING表示)、支持列裁剪和列常量。支持递归读取、支持文件名过滤。支持文本压缩,现有压缩格式为gzip、bzip2、zip、lzo和lzo_deflate。多个File可以支持并发读取。暂时不支持以下功能:单个File支持多线程并发读取,此处涉及到单个File内部切分算法。单个File在压缩情况下,从技术上无法支持多线程并发读取。 此答案整理自钉群“DataWorks交流群(答疑@机器人)”
FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。
本地文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。
FTP Reader实现了从远程FTP文件读取数据并转为数据同步协议的功能,远程FTP文件本身是无结构化数据存储。对于数据同步而言,目前FTP Reader支持的功能如下所示:
支持且仅支持读取TXT的文件,并要求TXT中的schema为一张二维表。 - 支持类CSV格式文件,自定义分隔符。 - 支持多种类型数据读取(使用STRING表示)、支持列裁剪和列常量。 - 支持递归读取、支持文件名过滤。 - 支持文本压缩,现有压缩格式为gzip、bzip2、zip、lzo和lzo_deflate。 - 多个File可以支持并发读取。
暂时不支持以下功能:
FTP Reader为您提供读取远程FTP文件系统数据存储的功能。在底层实现上,FTP Reader获取远程FTP文件数据,并转换为数据同步传输协议传递给Writer。
阿里云DataWorks中FTP Reader是一种数据源,可用于从FTP(文件传输协议)服务器中读取数据,支持的文件格式包括csv、txt、xlsx等。
在数据集成场景中,许多企业的数据存储在FTP服务器上。使用FTP Reader,可以轻松地将存储在FTP服务器上的数据导入到DataWorks中,以进行后续的数据开发和处理。同时,FTP Reader也提供了高效的增量同步能力,即只读取最新的增量数据。
需要注意的是,使用FTP Reader时需要准确配置FTP服务器的地址、端口、用户名和密码等信息,以确保能够正确访问FTP服务器并读取数据。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。