开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

将训练数据存储在数据湖上带来了哪些问题和挑战?

将训练数据存储在数据湖上带来了哪些问题和挑战?

展开
收起
Lee_tianbai 2021-01-07 15:43:34 865 0
1 条回答
写回答
取消 提交回答
    1. 远端拉取数据的延迟和带宽无法随着计算资源线性扩展。硬件计算能力在不断发展,利 用 GPU 进行计算可以取得更快的训练速度。使用云上弹性计算 ECS、容器服务可以 快速调度起大规模的计算资源。访问对象存储需要走网络,得益于网络技术的发展,我们访问对象存储有一个高速网络,即便如此,对象存储的网络延时和带宽无法随着集群 规模线性扩展,可能会成为瓶颈,限制了训练速度。在计算存储分离架构下,如何高效 地访问到这些数据,成为了一个巨大的挑战。

    2. 需要更加便捷的通用的数据访问方式。深度学习框架如 TensorFlow 对于 GCS、 HDFS 支持较为友好,而对于诸多第三方对象存储的支持上较为滞后。而 POSIX 接口是 一种更自然友好的方式,使用类似于本地磁盘一样的方式访问数据,大大简化了开发者对存 储系统的适配工作。

    2021-01-08 15:47:52
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载