📜  ADAM(自适应矩估计)优化|机器学习

📅  最后修改于: 2022-05-13 01:58:07.222000             🧑  作者: Mango

ADAM(自适应矩估计)优化|机器学习

先决条件:梯度下降中的优化技术

梯度下降适用于函数相对于网络中使用的参数很容易微分的场景。最小化连续函数比最小化离散函数容易。权重更新在一个 epoch 之后执行,其中一个 epoch 代表运行整个数据集。这种技术产生了令人满意的结果,但如果训练数据集变大并且不能很好地收敛,它就会恶化。在存在多个局部最小值的情况下,它也可能不会导致全局最小值。

随机梯度下降通过随机选择数据样本并根据代价函数更新参数来克服这个缺点。此外,它比常规梯度下降收敛得更快,并且通过不累积中间权重来节省内存。
自适应矩估计 (ADAM) 有助于使用梯度的一阶和二阶矩来计算每个参数的学习率。

由于计算效率高,ADAM 需要更少的内存并在大型数据集上表现出色。它需要P 2,Q 2,T将被初始化为0,其中p 0对应于1矩向量即均值,Q 0对应于第2矩向量即非中心方差和t表示时间步长。
在考虑ƒ(w)为参数为w的随机目标函数时,ADAM 中的参数建议值如下:

α = 0.001, m1=0.9, m2=0.999,  ϵ = 10-8. 

ADAM研究中讨论的另一个主要优点是参数的更新对梯度重新缩放完全不变,即使目标函数随时间变化,算法也会收敛。这种特殊技术的缺点是它需要计算二阶导数,这会导致成本增加。



ADAM的算法已经在下面简要提到了——