多步去噪 + Q 引导 · 逐步演示
纵轴是时间 t(底=纯噪声,顶=干净动作),横轴是动作 a。轨迹一步步往上爬。
青斜虚线→落点 â₁(QGF 查询点)
橙竖虚线→a_t(OOD 查询点)
顶部:价值地形 Q
QGF(查 â₁)
OOD(查 a_t)
无引导
引导权重 1/β
2.5
播放
逐步 ▶
重置