四种取梯度的方式 · 论文 Teaser 动态版

同一条去噪轨迹,四个面板各自上演自己的"问 Q 的方式"。自动循环播放。

1.0×
0%

试试:拖动任意面板里蓝色等高线的中心(Q 的峰)——所有梯度箭头实时重算。注意只有 BPTT 终点处的梯度、和 QGF 的梯度始终指向峰;OOD 的问号箭头不理你,BPTT 传回 a_t 的梯度则一直在抖。

① 行为流策略纯流去噪:z~N 出发,沿速度场 v_t 一步步走到干净动作 a₁。没有 Q 参与,这是被引导的"底盘"。
② BPTT先虚线推演到 a₁,在 a₁ 取 ∇Q(可信),再乘一串雅可比 da/da 逐跳反传回 a_t。链一长,传回的箭头剧烈抖动 = 高方差,且昂贵。
③ 噪声点梯度(OOD)直接在半噪声的 a_t 上问 Q。但 Q 没见过这种半成品,梯度方向不可信——带问号、乱指。
④ QGF(本文)沿 v_t 一步虚线跳到干净估计 â₁,在 â₁ 取 ∇Q(可信),令 J=I 原样搬回 a_t 使用。便宜、稳定、方向对。