QGF 的两刀 · 逐环剥离引导梯度
横轴=噪声点 a_t,纵轴=引导梯度。点①②③逐环剥离,看梯度怎么变光滑。
① BPTT(整条链)
② 一步 + 精确 J
③ QGF(J=I)
① 只看 BPTT
② 加 一步+J
③ 全部(含 QGF)
时间 t
0.60
探针 a_t
0.45
① BPTT 抖动 |Δg|
—
② 一步+J 抖动
—
③ QGF 抖动
—