精确 vs 近似 · 引导梯度的稳定性

横轴=噪声点 a_t,纵轴=该处算出的引导梯度。看哪条光滑、哪条抖。

QGF(近似:â₁ + 单位雅可比) BPTT(精确:跑完整条链) OOD(在 a_t 处)
0.25
0.40
QGF 抖动 |Δg|
BPTT 抖动 |Δg|
OOD 抖动 |Δg|