一、对于训练集的处理
1.Mini-Batch
每次处理训练集的一部分进行梯度下降,避免了遍历完整个训练集才完成一次参数更新
2.Batch Gradient Descent
每次处理完所有训练集进行梯度下降
3.Stochastic Gradient Descent
每次处理完一个样本就进行梯度下降
二、反向传播加速梯度下降的过程
1.Momentum:将前几次梯度下降的指数平均作为梯度值来更新参数(避免震荡)
2.RMS Prop:使波动大的维度参数更新慢,波动小的维度参数更新快
3.Adam:将Momentum 和 RMS Prop相结合
下面是我的作业喽 ~