开发者社区 问答 正文

E-MapReduce Hadoop参数说明?


Hadoop 代码中可使用如下参数配置:

属性名默认值说明
fs.oss.accessKeyId访问 OSS 所需的 AccessKey ID(可选)
fs.oss.accessKeySecret访问 OSS 所需的 AccessKey Secret(可选)
fs.oss.securityToken访问 OSS 所需的 STS token(可选)
fs.oss.endpoint访问 OSS 的 endpoint(可选)
fs.oss.multipart.thread.number5并发进行 OSS 的 upload part copy 的并发度
fs.oss.copy.simple.max.byte134217728使用普通接口进行 OSS 内部 copy 的文件大小上限
fs.oss.multipart.split.max.byte67108864使用普通接口进行 OSS 内部 copy 的文件分片大小上限
fs.oss.multipart.split.number5使用普通接口进行 OSS 内部 copy 的文件分片数目,默认和拷贝并发数目保持一致
fs.oss.implcom.aliyun.fs.oss.nat.NativeOssFileSystemOSS 文件系统实现类
fs.oss.buffer.dirs/mnt/disk1,/mnt/disk2,…OSS 本地临时文件目录,默认使用集群的数据盘
fs.oss.buffer.dirs.existsfalse是否确保 OSS 临时目录已经存在
fs.oss.client.connection.timeout50000OSS Client 端的连接超时时间(单位毫秒)
fs.oss.client.socket.timeout50000OSS Client 端的 socket 超时时间(单位毫秒)
fs.oss.client.connection.ttl-1连接存活时间
fs.oss.connection.max1024最大连接数目
io.compression.codec.snappy.nativefalse标识 Snappy 文件是否为标准 Snappy 文件,Hadoop 默认识别的是 Hadoop 修改过的 Snappy 格式文件

展开
收起
nicenelly 2017-10-30 16:11:37 1619 分享 版权
阿里云 AI 助理回答

您提到的这些配置参数是用于在Hadoop环境中集成阿里云对象存储服务(OSS)时进行细粒度控制的关键设置。下面是对这些参数更详细的解释和建议:

  1. 访问凭据:

    • fs.oss.accessKeyId: 设置访问OSS所需的AccessKey ID,这是身份验证的一部分。
    • fs.oss.accessKeySecret: 设置访问OSS所需的AccessKey Secret,与AccessKey ID一起使用以验证请求。
    • fs.oss.securityToken: 如果使用STS临时凭证访问OSS,需要设置此参数。
  2. 连接与端点:

    • fs.oss.endpoint: 指定OSS服务的访问地址,例如oss-cn-hangzhou.aliyuncs.com,根据您的OSS实例所在区域选择合适的endpoint。
  3. 并发与性能优化:

    • fs.oss.multipart.thread.number: 控制上传或复制大文件时的并发线程数,提高效率。
    • fs.oss.multipart.split.max.byte, fs.oss.multipart.split.number: 这些参数影响大文件分片处理的策略,可以调整以适应不同的网络环境和性能需求。
  4. 本地缓存与目录:

    • fs.oss.buffer.dirs: 指定OSS操作时使用的本地临时文件目录,可以指定多个路径以分散I/O压力。
    • fs.oss.buffer.dirs.exists: 确保指定的临时目录存在,避免运行时错误。
  5. 超时与连接管理:

    • fs.oss.client.connection.timeout, fs.oss.client.socket.timeout: 调整客户端连接和socket超时时间,有助于应对网络不稳定情况。
    • fs.oss.client.connection.ttl: 控制连接存活时间,-1表示使用默认值。
    • fs.oss.connection.max: 限制最大连接数,防止过多连接导致资源耗尽。
  6. 压缩与兼容性:

    • io.compression.codec.snappy.native: 配置是否使用原生Snappy压缩库,这取决于您的Hadoop环境和压缩需求。

在实际应用中,根据您的具体需求和环境条件,合理调整这些参数可以显著提升基于Hadoop与阿里云OSS集成的性能和稳定性。记得在修改配置后测试以确保所有设置都符合预期,并且不会引入新的问题。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答