Adadelta优化原理
Adadelta是Adagrad的一个扩展,旨在降低其攻击性、单调递减的学习率。Adadelta没有累加所有过去的平方梯度,而是将累加过去梯度的窗口限制为某个固定大小:w。
不是低效地存储以前的平方梯度,而是将梯度之和递归定义为所有过去平方梯度的衰减平均值。然后,时间步的运行平均值 E [ g 2 ] t E[g^2]_tE[g2]t 仅取决于之前的平均值和当前梯度(作为与动量项类似的分数):
我们将其设置为与动量项类似的值,约为0.9。为了清楚起见,我们现在根据参数更新向量重写我们的普通SGD更新:
因此,我们先前导出的Adagrad的参数更新向量的形式如下:
我们现在简单地用过去平方梯度 G t G_tGt 的衰减平均值替换对角线矩阵:
迭代过程
代码实践
import numpy as np import matplotlib.pyplot as plt class Optimizer: def __init__(self, epsilon = 1e-10, # 误差 iters = 100000, # 最大迭代次数 lamb = 0.01, # 学习率 gamma = 0.9, theta = 1e-7): # 常数 self.epsilon = epsilon self.iters = iters self.lamb = lamb self.gamma = gamma self.theta = theta def adadelta(self, x_0 = 0.5, y_0 = 0.5): f1, f2 = self.fn(x_0, y_0), 0 w = np.array([x_0, y_0]) # 每次迭代后的函数值,用于绘制梯度曲线 k = 0 # 当前迭代次数 E_g2 = 0.0 while True: if abs(f1 - f2) <= self.epsilon or k > self.iters: break f1 = self.fn(x_0, y_0) g = np.array([self.dx(x_0, y_0), self.dy(x_0, y_0)]) E_g2 = self.gamma * E_g2 + (1 - self.gamma) * np.dot(g, g) x_0, y_0 = np.array([x_0, y_0]) - self.lamb / (self.theta + np.sqrt(E_g2)) * np.array([self.dx(x_0, y_0), self.dy(x_0, y_0)]) f2 = self.fn(x_0, y_0) w = np.vstack((w, (x_0, y_0))) k += 1 self.print_info(k, x_0, y_0, f2) self.draw_process(w) def print_info(self, k, x_0, y_0, f2): print('迭代次数:{}'.format(k)) print('极值点:【x_0】:{} 【y_0】:{}'.format(x_0, y_0)) print('函数的极值:{}'.format(f2)) def draw_process(self, w): X = np.arange(0, 1.5, 0.01) Y = np.arange(-1, 1, 0.01) [x, y] = np.meshgrid(X, Y) f = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x plt.contour(x, y, f, 20) plt.plot(w[:, 0],w[:, 1], 'g*', w[:, 0], w[:, 1]) plt.show() def fn(self, x, y): return x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x def dx(self, x, y): return 3 * x**2 + 6 * x - 9 def dy(self, x, y): return - 3 * y**2 + 6 * y """ 函数: f(x) = x**3 - y**3 + 3 * x**2 + 3 * y**2 - 9 * x 最优解: x = 1, y = 0 极小值: f(x,y) = -5 """ optimizer = Optimizer() optimizer.adadelta()