开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

将训练数据存储在数据湖上具有什么优势?

将训练数据存储在数据湖上具有什么优势?

展开
收起
Lee_tianbai 2021-01-07 15:42:52 1066 0
1 条回答
写回答
取消 提交回答
    1. 不需要将数据提前同步到训练节点。传统方式,我们需要将数据提前导入到计算节点的 本地磁盘。而如果将数据存储在对象存储上,我们可以直接读取数据进行训练,减少准 备工作。

    2. 可以存储更大的训练数据,不再受限于计算节点本地磁盘大小。对于深度学习,拥有更 多的数据,往往能取得更好的训练效果。

    3. 计算资源可以弹性扩缩容,节约成本。机器学习通常使用使用更多核数的 CPU 或高端 GPU,较为昂贵,对象存储的成本就相对较低。将训练数据存储在数据湖上,可以与 计算资源解耦。计算资源可以按需付费,随时释放,达到节省成本的目的。

    2021-01-07 15:43:04
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载