精确 vs 近似 · 引导梯度的稳定性
横轴=噪声点 a_t,纵轴=该处算出的引导梯度。看哪条光滑、哪条抖。
QGF(近似:â₁ + 单位雅可比)
BPTT(精确:跑完整条链)
OOD(在 a_t 处)
时间 t
0.25
探针 a_t
0.40
QGF 抖动 |Δg|
—
BPTT 抖动 |Δg|
—
OOD 抖动 |Δg|
—