多步去噪 + Q 引导 · 逐步演示

纵轴是时间 t(底=纯噪声,顶=干净动作),横轴是动作 a。轨迹一步步往上爬。

青斜虚线→落点 â₁(QGF 查询点) 橙竖虚线→a_t(OOD 查询点) 顶部:价值地形 Q
2.5