数据三峰(a=−2,0,1),真最优 a*=1。评论家 Q 在 a≈3 处有一个"虚高鼓包"(OOD 误判)。切换引导方式、调权重,看粒子落在哪。
提示:无引导时,粒子随机落到三个峰。切到 QGF 并加大权重,它们集中到 a*=1(真实回报最高)。切到 OOD 并加大权重,粒子被"虚高鼓包"骗到 a≈3——评论家 Q 很高,真实回报却很低。这就是 OOD 钻评论家空子。