开发者社区> 问答> 正文

EMR用户反馈测试2万小文件做单词统计时性能差HDFS十几倍

已解决

用户反馈测试2万小文件做单词统计时性能差HDFS十几倍

展开
收起
封神 2016-07-14 16:03:57 2163 0
1 条回答
写回答
取消 提交回答
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;
    采纳回答

    小文件存放在oss中,每个文件大约几k左右。
    这样去放问oss,存在链路过长,链路的时间比磁盘读取文件的时间还长很多。

    在hdfs上,则基本为本地访问,链路较短的。

    如果文件较大,比如100M,则链路的开销可以忽略不计。

    2019-07-17 19:56:27
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
生命密码-基因数据的EMR实践 立即下载
超大规模机器学习在EMR的实践 立即下载
EMR弹性低成本离线大数据分析最佳实践 立即下载