CFGRL、DSRL、test-time、RL-token、各种 steering —— 看起来路子很多,本质上是同一个操作:把冻结基模的分布乘上一个非负权重,往高回报的地方挪。这个操作有一个数学上的硬天花板,而且它和你用 flow 还是 autoregressive 无关。下面把每个方法落到这条定律上,并证明:唯一可调的杠杆,是预训练基模的分布要足够丰富、覆盖要足够广。
下面这张图就是这条不等式的可视化。拖动两个滑块:把“steering 强度”拉满,达成值只会逼近 support 内的上界,差距 Δ 纹丝不动;只有把基模加宽,差距才会消失。
基模 \(\pi_{\mathrm{base}}(a\mid s)\) 来自模仿学习 / 预训练。我们想在它之上做 RL,最大化回报。几乎所有“在不弄崩基模的前提下做改进”的方法,实际优化的都是同一个 KL 正则的 RL 目标:
这个 KL 项不是可有可无的装饰——它是稳定性的来源。去掉它,策略会漂到基模没见过的状态-动作上,critic 在那里外推不可靠,训练崩掉。所以无论 flow 还是 token,大家都带着这个锚。
这里有个常被误判的点:你列的“flow matching 没有好的 online RL 方法”,本质是个计算障碍——policy gradient 要 \(\log\pi(a\mid s)\) 或重要性比 \(\pi_{\text{new}}/\pi_{\text{old}}\),而 flow 的密度要沿 ODE 积分速度场散度,解析上不可得。
但 DSRL(把 RL 移到噪声空间)、CFGRL(用引导权重)、test-time(直接选)都绕过了这个密度。所以计算障碍不是真正的墙。真正的墙是下面这条,它对任何生成式类别都成立:
在不破坏稳定性(即带着 KL 锚或停留在基模 support 内)的前提下,steering 能达到的值上界是多少?由什么决定?
上面那个目标有闭式解,就是大家熟悉的 Gibbs / Boltzmann 形式(和 RLHF / DPO 里 \(\pi^\star\propto\pi_{\text{ref}}e^{r/\beta}\) 同一个东西):
定理(support 包含). 指数因子恒为正,只能给已有的质量重新加权,不能凭空造质量。于是
推论(性能天花板). 令 \(\alpha\to 0\)(纯利用),steered 策略集中到 support 内 Q 最大的那个动作:
这才是“对基模要求很高”的精确含义。 注意天花板由 support 决定,不是由基模均值表现决定。你不需要基模平均成功率高,你需要它偶尔能吐出那个好动作。
而且 support 包含只是渐近结论。更要命的是有限样本版本:steering(DSRL 等)是靠从 \(\pi_{\mathrm{base}}\) 采样、拿到反馈来发现好动作的。在 \(N\) 次采样里撞上密度为 \(\epsilon\) 的好动作的概率约 \(1-(1-\epsilon)^N\),所以:
\(C^\star\) 就是 offline RL 里的覆盖 / concentrability 系数。基模在好动作上放的密度越高(分布越宽、越丰富),\(C^\star\) 越小,steering 越便宜;密度趋零,样本复杂度指数爆炸。结论:好动作不光要“在 support 里”,还要有不可忽略的密度。这就是“分布要足够广”的数学形式。
下面五个里,前四个都是 \(\pi=\frac1Z\pi_{\mathrm{base}}\,g(s,a)\) 的不同实现(只是 \(g\) 的形式和算法不同);Q-chunking 是正交的——它不改 \(g\),它负责让 \(Q\) 本身能被学好。
把图像扩散里的无分类器引导搬过来。训练时让 flow/扩散在“最优性 / 高回报”条件 \(c\) 上做条件生成;采样时把引导权重 \(w\) 调大,沿 \(v_w=v_\varnothing+w\,(v_c-v_\varnothing)\) 外推,把分布推向高回报模式。
落到定律上:g = (π_c/π_base)^w ∝ e^{wQ/β}。引导权重 w 就是逆温度 1/α。w 再大也只是重加权 πuncond,support 不变。
冻结基模。注意动作是输入噪声的确定性函数 \(a=f_{\mathrm{base}}(z,s)\)(给定冻结 ODE)。于是不在动作空间做 RL(密度不可得),而是在噪声 \(z\) 上学一个策略 \(\pi_z(z\mid s)\),用标准 off-policy RL(SAC)即可,基模当黑盒解码器。极省样本、只需前向访问。
落到定律上:可达动作集 = f_base(·,s) 的像 = supp πbase。换 z 只是在 support 内高效搜索,不是逃出 support。
完全不训练策略。推理时从基模采 \(N\) 个候选动作,用价值 / 奖励模型打分,挑最好的(或做小规模搜索 / MPC)。本质是用拒绝-选择做经验重加权。
落到定律上:g ∝ 𝟙[a = argmax Q],只在采到的基模样本上选。这是“天花板 + 覆盖”最干净的演示。
对把动作离散成 token 的自回归 VLA(OpenVLA 类),可以像 RLHF 一样直接做 PPO / GRPO,奖励放在序列末端。这是“容易”的一类——token 策略有可解析的 softmax 似然,标准 policy gradient 能用,不像 flow。原则上它能把质量挪到任意 token 组合(离散动作空间的全 support)。
关键 nuance:为了不崩,大家都加 β·KL 锚,于是又回到同一个 Gibbs 形式、同一个 near-support 偏置。再加上离散化本身限了精度。support 偏置不是 flow 独有的,它来自所有人为稳定而用的 KL 锚。
在分块动作空间里做 TD 学习:策略一次输出 \(k\) 步动作,critic 在 chunk 上做 n-step 回填。两个收益:(1) 有效 horizon 缩小 \(k\) 倍、credit assignment 更短、n-step 回报无偏;(2) 提交一个 chunk 带来时序一致的探索,不会出现逐步随机相互抵消的“原地抖动”。
落到定律上:它不改 g、不改 support。它解决的是“长程稀疏奖励下 Q 学不出来、探索没效率”,让 RL 信号可用——这恰恰是上面那些 steering 方法(给了你一个可控旋钮)所缺的那一半。
把所有 steering 方法写成一个统一形式——保留富表达的基模,乘一个非负权重把输出推向高回报:
| 方法 | 权重 g(s,a) / 机制 | 受 support 上界限制? |
|---|---|---|
| CFGRL | (π_c/π_base)^w ∝ e^{wQ/β} | 是 |
| DSRL | 隐式;RL over z,a=f_base(z),可达 = flow 像集 | 是 |
| test-time | 𝟙[a=argmax_i Q],a_i∼π_base | 是 |
| RL-token | e^{Q/β}(KL 锚;离散全 support 但被锚拉回) | 是(实践中) |
| Q-chunking | 不改 g;让 Q 可学(无偏 n-step、H→H/k、时序一致探索) | 正交 |
命题(Steering 的可达性). 给定冻结基模 \(\pi_{\mathrm{base}}\) 与真实最优 \(a^\star(s)=\arg\max_a Q^\star(s,a)\)。任何形如 \(\pi(a\mid s)=\frac1{Z}\pi_{\mathrm{base}}(a\mid s)\,g(s,a),\ g\ge 0\) 的 steering 策略满足 \(\operatorname{supp}\pi\subseteq\operatorname{supp}\pi_{\mathrm{base}}\),故
结论。 在锚定/正则范式下,唯一能动 \(\Delta\) 和 \(C^\star\) 的杠杆是 \(\pi_{\mathrm{base}}\) 在有用但稀有的动作上的覆盖密度。因此目标不是再发明一个 flow-RL 算法(DSRL 那条线已经够用),而是两件事:(a) 最大化基模分布的覆盖宽度与好动作密度(更多样的预训练数据、刻意更高熵 / 更多样的示范)——把难点从 RL 推回 pretrain;(b) 一个能安全、自主地扩张 support 的闭环(steering 自举 → 自主 rollout 收略微 off-distribution 的成功 → 折回基模、长大它 → 重复),其前提是一个能替代人的失败检测 / 安全恢复 oracle。把这两件做好,上面五个方法才有真正的天花板可言。