Q 引导的流去噪 · 一维演示

数据三峰(a=−2,0,1),真最优 a*=1。评论家 Q 在 a≈3 处有一个"虚高鼓包"(OOD 误判)。切换引导方式、调权重,看粒子落在哪。

评论家 Q(模型相信的价值) 真实回报 −(a−1)²
2.5
已落地样本
0
平均真实回报(越高越好)
平均评论家 Q(模型相信的)

提示:无引导时,粒子随机落到三个峰。切到 QGF 并加大权重,它们集中到 a*=1(真实回报最高)。切到 OOD 并加大权重,粒子被"虚高鼓包"骗到 a≈3——评论家 Q 很高,真实回报却很低。这就是 OOD 钻评论家空子。