开发者社区 问答 正文

EMR用户反馈测试2万小文件做单词统计时性能差HDFS十几倍

已解决

用户反馈测试2万小文件做单词统计时性能差HDFS十几倍

展开
收起
封神 2016-07-14 16:03:57 2183 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;
    采纳回答

    小文件存放在oss中,每个文件大约几k左右。
    这样去放问oss,存在链路过长,链路的时间比磁盘读取文件的时间还长很多。

    在hdfs上,则基本为本地访问,链路较短的。

    如果文件较大,比如100M,则链路的开销可以忽略不计。

    2019-07-17 19:56:27 举报
    赞同 1 评论

    评论

    全部评论 (0)

    登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等