开发者社区 问答 正文

SGD 中 S是如何理解的呢?

SGD 中 S是如何理解的呢?

展开
收起
游客5ixw6pdymb5xs 2022-03-14 23:33:37 564 分享 版权
1 条回答
写回答
取消 提交回答
  • 使用所有数据一方面计算量巨大,不太现实,另一方面容易陷入局部极小值难以跳出,随机batch的梯度反而增加了跳出局部极限值的可能性,从而获得更好的结果。

    2022-03-14 23:34:08
    赞同 展开评论
问答地址: