将训练数据存储在数据湖上具有以下优势:
1.不需要将数据提前同步到训练节点。
传统方式,我们需要将数据提前导入到计算节点的本地磁盘。而如果将数据存储在对象存储上,我们可以直接读取数据进行训练,减少准备工作。
2.可以存储更大的训练数据
不再受限于计算节点本地磁盘大小。对于深度学习,拥有更多的数据,往往能取得更好的训练效果。
3.计算资源可以弹性扩缩容,节约成本。
机器学习通常使用使用更多核数的CPU或高端GPU,较为昂贵,对象存储的成本就相对较低。将训练数据存储在数据湖上,可以与计算资源解耦。计算资源可以按需付费,随时释放,达到节省成本的目的。
然而,这种方式同时存在着一些问题和挑战