Hadoop 代码中可使用如下参数配置:
属性名 | 默认值 | 说明 |
fs.oss.accessKeyId | 无 | 访问 OSS 所需的 AccessKey ID(可选) |
fs.oss.accessKeySecret | 无 | 访问 OSS 所需的 AccessKey Secret(可选) |
fs.oss.securityToken | 无 | 访问 OSS 所需的 STS token(可选) |
fs.oss.endpoint | 无 | 访问 OSS 的 endpoint(可选) |
fs.oss.multipart.thread.number | 5 | 并发进行 OSS 的 upload part copy 的并发度 |
fs.oss.copy.simple.max.byte | 134217728 | 使用普通接口进行 OSS 内部 copy 的文件大小上限 |
fs.oss.multipart.split.max.byte | 67108864 | 使用普通接口进行 OSS 内部 copy 的文件分片大小上限 |
fs.oss.multipart.split.number | 5 | 使用普通接口进行 OSS 内部 copy 的文件分片数目,默认和拷贝并发数目保持一致 |
fs.oss.impl | com.aliyun.fs.oss.nat.NativeOssFileSystem | OSS 文件系统实现类 |
fs.oss.buffer.dirs | /mnt/disk1,/mnt/disk2,… | OSS 本地临时文件目录,默认使用集群的数据盘 |
fs.oss.buffer.dirs.exists | false | 是否确保 OSS 临时目录已经存在 |
fs.oss.client.connection.timeout | 50000 | OSS Client 端的连接超时时间(单位毫秒) |
fs.oss.client.socket.timeout | 50000 | OSS Client 端的 socket 超时时间(单位毫秒) |
fs.oss.client.connection.ttl | -1 | 连接存活时间 |
fs.oss.connection.max | 1024 | 最大连接数目 |
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
您提到的这些配置参数是用于在Hadoop环境中集成阿里云对象存储服务(OSS)时进行定制化设置的关键属性。下面是对这些参数更详细的解释和建议,帮助您更好地理解和使用它们:
访问凭据相关:
fs.oss.accessKeyId
: 设置访问OSS所需的AccessKey ID,这是身份验证的一部分。fs.oss.accessKeySecret
: 设置访问OSS所需的AccessKey Secret,与AccessKey ID一起构成认证信息。fs.oss.securityToken
: 如果使用STS临时凭证访问OSS,需要设置此参数。连接与端点设置:
fs.oss.endpoint
: 指定OSS服务的访问地址,例如oss-cn-hangzhou.aliyuncs.com
,根据您的OSS实例所在区域选择合适的endpoint。并发与性能优化:
fs.oss.multipart.thread.number
: 控制OSS文件上传或内部复制时的并发度,提高大文件操作效率。fs.oss.multipart.split.max.byte
和 fs.oss.multipart.split.number
: 分别控制单个分片的最大大小和默认分片数目,影响大文件上传或复制策略。本地缓存与目录:
fs.oss.buffer.dirs
: 指定OSS操作时使用的本地临时文件目录,可以提升读写性能。fs.oss.buffer.dirs.exists
: 确保指定的本地临时目录存在,避免运行时错误。客户端超时与连接管理:
fs.oss.client.connection.timeout
和 fs.oss.client.socket.timeout
: 分别设置连接建立和数据传输的超时时间,以毫秒为单位。fs.oss.client.connection.ttl
: 连接存活时间,-1表示使用默认值。fs.oss.connection.max
: 最大连接数,影响到并发请求的能力。压缩编码:
io.compression.codec.snappy.native
: 控制是否使用原生Snappy压缩库,这会影响到压缩文件的处理效率。通过调整这些参数,您可以优化Hadoop作业与阿里云OSS之间的交互性能,特别是在处理大量数据读写、大文件操作等场景下。请根据实际需求和环境状况合理配置,以达到最佳的性能效果。记得在修改配置后测试以确保所有设置正确无误且符合预期的性能改进。