我有一个关于SGD Optimizer的问题。
有三种类型的Gradient Descent Algorithm
Descent
Stochastic Gradient Descent是一个Algorithm,其中一个来自Training Set的Instance在Random上被取下来,而Weights被更新到关于这个Instance的方面。
SGD Optimizer稍微偏离了上面的定义,它可以接受超过1的batch_size。有人能澄清这个偏差吗?
下面的代码似乎符合Stochastic Gradient Descent的定义
model.compile(optimizer = 'sgd', loss = 'mse')
model.fit(x, y,epochs = 500, batch_size = 1,verbose=1)但是,下面的代码似乎令人困惑/偏离(因为batch_size > 1):
model.compile(optimizer = 'sgd', loss = 'mse')
model.fit(x, y,epochs = 500, batch_size = 32, verbose=1)谢谢您的澄清。
发布于 2021-05-21 16:59:01
引用维基百科的话:
它可以被视为梯度下降优化的随机逼近,因为它将实际的梯度(从整个数据集中计算)替换为它的估计(根据随机选择的数据子集计算)。
所以你提到的三种类型都是SGD。即使您使用所有数据执行SGD迭代,它仍然是实际梯度的随机估计;因为在收集新数据时(您的数据集不包括宇宙中的所有数据),您的估计将发生变化,因此是随机的。
https://stackoverflow.com/questions/67636925
复制相似问题