为什么我们更宠爱“随机”梯度下降?(SGD)
导读 特别声明:本文仅有的一点贡献就是用自己的理解翻译了 Leon Bottou 等人的论文 <Optimization Methods for Large-Scale Machine Learning>,初窥门径,才疏学浅,疏漏之处,望不吝指教。 引子 大家都知道,训练深度网络一般用的是 SGD (Stochastic Gradient Descent | 随机梯度下降)而不是 GD (Gradient Descent | 梯度下降),但是有没有考虑过 SGD 为什么比 GD 更受大家宠爱,SGD 是如何在用较低的 Computational Complexity (一般可以大概理解成,达成目标需要计算 Gradient 的次数)的同时还能保证比较好的训练效果。 本文主要给出几个特殊的例子,给大家一个从直觉性,实验上和理论上认知,为什么有时候,相对于GD 我们更宠爱 SGD? 我们主要从以下三个方面,一起看一看 SGD 相对于 GD 的优势。 Prat I: 直觉上 ( Intuitive Motivation) Prat II: 实验上 ( Practical Moti...
