热力图 = 评论家 Q 的价值地形(亮=高价值)。白色细线 = 粒子跟随的速度场。亮点 = 真实去噪中的动作样本。在画面里拖动,即可移动奖励峰 a*。
玩法:① 把引导强度调到 0 = 纯流,粒子铺满全部 5 个数据模式(这就是行为克隆学到的分布)。② 调大强度,粒子被 Q 收紧、集中到奖励峰附近的模式上——这就是"用 Q 引导流"。③ 拖动奖励峰,整片速度场和粒子的落点会实时跟着它走。④ 强度拉到很大时,粒子会脱离数据模式直接挤到 a*(过度引导 / 钻空子的征兆)。