QGF 的两刀 · 逐环剥离引导梯度

横轴=噪声点 a_t,纵轴=引导梯度。点①②③逐环剥离,看梯度怎么变光滑。

① BPTT(整条链) ② 一步 + 精确 J ③ QGF(J=I)
0.60
0.45
① BPTT 抖动 |Δg|
② 一步+J 抖动
③ QGF 抖动