VLA · 真机 RL · 一个分布层面的约束

Steering 是重新分配质量,
不是创造质量。

CFGRL、DSRL、test-time、RL-token、各种 steering —— 看起来路子很多,本质上是同一个操作:把冻结基模的分布乘上一个非负权重,往高回报的地方挪。这个操作有一个数学上的硬天花板,而且它和你用 flow 还是 autoregressive 无关。下面把每个方法落到这条定律上,并证明:唯一可调的杠杆,是预训练基模的分布要足够丰富、覆盖要足够广。

supp π supp πbase

下面这张图就是这条不等式的可视化。拖动两个滑块:把“steering 强度”拉满,达成值只会逼近 support 内的上界,差距 Δ 纹丝不动;只有把基模加宽,差距才会消失。

0.56
支持
已达成 E[Q] support内上界 不可约支持差 Δ
钢蓝 = 基模 πbase;金色 = steered 策略 π ∝ πbase·eQ/α;青色虚线 = 价值 Q(a)。两侧珊瑚色阴影 = support 之外(基模零质量的区域),全局最优就藏在右侧那堵墙外面。
00

把问题定义清楚

基模 \(\pi_{\mathrm{base}}(a\mid s)\) 来自模仿学习 / 预训练。我们想在它之上做 RL,最大化回报。几乎所有“在不弄崩基模的前提下做改进”的方法,实际优化的都是同一个 KL 正则的 RL 目标

目标
\[ \max_{\pi}\ \mathbb{E}_{a\sim\pi(\cdot\mid s)}\!\big[Q(s,a)\big]\;-\;\alpha\, D_{\mathrm{KL}}\!\big(\pi(\cdot\mid s)\,\|\,\pi_{\mathrm{base}}(\cdot\mid s)\big) \]

这个 KL 项不是可有可无的装饰——它是稳定性的来源。去掉它,策略会漂到基模没见过的状态-动作上,critic 在那里外推不可靠,训练崩掉。所以无论 flow 还是 token,大家都带着这个锚。

这里有个常被误判的点:你列的“flow matching 没有好的 online RL 方法”,本质是个计算障碍——policy gradient 要 \(\log\pi(a\mid s)\) 或重要性比 \(\pi_{\text{new}}/\pi_{\text{old}}\),而 flow 的密度要沿 ODE 积分速度场散度,解析上不可得。

但 DSRL(把 RL 移到噪声空间)、CFGRL(用引导权重)、test-time(直接选)都绕过了这个密度。所以计算障碍不是真正的墙。真正的墙是下面这条,它对任何生成式类别都成立:

中心问题

在不破坏稳定性(即带着 KL 锚或停留在基模 support 内)的前提下,steering 能达到的值上界是多少?由什么决定?

01

核心定理:重加权出不了 support

上面那个目标有闭式解,就是大家熟悉的 Gibbs / Boltzmann 形式(和 RLHF / DPO 里 \(\pi^\star\propto\pi_{\text{ref}}e^{r/\beta}\) 同一个东西):

\[ \pi^\star(a\mid s)=\frac{1}{Z(s)}\,\pi_{\mathrm{base}}(a\mid s)\,\exp\!\Big(\tfrac{1}{\alpha}Q(s,a)\Big),\qquad Z(s)=\!\int\!\pi_{\mathrm{base}}(a\mid s)\,e^{Q(s,a)/\alpha}\,da \]

定理(support 包含). 指数因子恒为正,只能给已有的质量重新加权,不能凭空造质量。于是

\[ \pi_{\mathrm{base}}(a\mid s)=0\ \Rightarrow\ \pi^\star(a\mid s)=0 \] \[ \Rightarrow\quad \operatorname{supp}\pi^\star(\cdot\mid s)\ \subseteq\ \operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s) \]

推论(性能天花板). 令 \(\alpha\to 0\)(纯利用),steered 策略集中到 support 内 Q 最大的那个动作:

\[ V_{\mathrm{steer}}(s)=\!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s)}\!\!Q(s,a)\ \le\ \max_{a}Q(s,a)=V^\star(s) \] \[ \Delta(s)=V^\star(s)-V_{\mathrm{steer}}(s)\ge 0,\quad \Delta(s)=0\iff a^\star(s)\in\operatorname{supp}\pi_{\mathrm{base}} \]

这才是“对基模要求很高”的精确含义。 注意天花板由 support 决定,不是由基模均值表现决定。你不需要基模平均成功率高,你需要它偶尔能吐出那个好动作。

而且 support 包含只是渐近结论。更要命的是有限样本版本:steering(DSRL 等)是靠从 \(\pi_{\mathrm{base}}\) 采样、拿到反馈来发现好动作的。在 \(N\) 次采样里撞上密度为 \(\epsilon\) 的好动作的概率约 \(1-(1-\epsilon)^N\),所以:

\[ N\ \sim\ \frac{1}{\pi_{\mathrm{base}}(a^\star\mid s)} \] \[ C^\star=\mathbb{E}_{s\sim d^\star}\!\left[\frac{1}{\pi_{\mathrm{base}}\!\big(a^\star(s)\mid s\big)}\right] \]

\(C^\star\) 就是 offline RL 里的覆盖 / concentrability 系数。基模在好动作上放的密度越高(分布越宽、越丰富),\(C^\star\) 越小,steering 越便宜;密度趋零,样本复杂度指数爆炸。结论:好动作不光要“在 support 里”,还要有不可忽略的密度。这就是“分布要足够广”的数学形式。

02

每个方法,都是这条定律的一个特例

下面五个里,前四个都是 \(\pi=\frac1Z\pi_{\mathrm{base}}\,g(s,a)\) 的不同实现(只是 \(g\) 的形式和算法不同);Q-chunking 是正交的——它不改 \(g\),它负责让 \(Q\) 本身能被学好。

CFGRL

Classifier-Free Guidance RL

把图像扩散里的无分类器引导搬过来。训练时让 flow/扩散在“最优性 / 高回报”条件 \(c\) 上做条件生成;采样时把引导权重 \(w\) 调大,沿 \(v_w=v_\varnothing+w\,(v_c-v_\varnothing)\) 外推,把分布推向高回报模式。

\[ \pi_w(a)\ \propto\ \pi_{\varnothing}(a)\Big(\tfrac{\pi_c(a)}{\pi_\varnothing(a)}\Big)^{\!w}\ \propto\ \pi_{\mathrm{base}}(a)\,e^{\,wQ(a)/\beta} \]

落到定律上:g = (π_c/π_base)^w ∝ e^{wQ/β}。引导权重 w 就是逆温度 1/α。w 再大也只是重加权 πuncond,support 不变。

1.0
guided 熵 w>1 = 外推 / 过度集中
钢蓝 = πuncond(基模);青虚线 = πcond(高回报条件);金色 = 引导结果。w↑ 把质量挤向高回报模式、熵下降,但永远落在基模 support 之内。
DSRL

Diffusion Steering via RL(噪声空间 RL)

冻结基模。注意动作是输入噪声的确定性函数 \(a=f_{\mathrm{base}}(z,s)\)(给定冻结 ODE)。于是不在动作空间做 RL(密度不可得),而是在噪声 \(z\) 上学一个策略 \(\pi_z(z\mid s)\),用标准 off-policy RL(SAC)即可,基模当黑盒解码器。极省样本、只需前向访问。

\[ \max_{\pi_z}\ \mathbb{E}_{z\sim\pi_z(\cdot\mid s)}\big[Q\big(s,\,f_{\mathrm{base}}(z,s)\big)\big],\qquad a=f_{\mathrm{base}}(z,s) \]

落到定律上:可达动作集 = f_base(·,s) 的像 = supp πbase。换 z 只是在 support 内高效搜索,不是逃出 support。

拖动左侧噪声空间里的青点 → 看右侧动作随之移动。金色区域 = 噪声经冻结 flow 映射后的像集,正好等于基模 support。珊瑚色 a* 落在像集之外:无论选哪个 z 都到不了。这就是 support 包含定理的几何版。
test-time

测试时搜索 / Best-of-N

完全不训练策略。推理时从基模采 \(N\) 个候选动作,用价值 / 奖励模型打分,挑最好的(或做小规模搜索 / MPC)。本质是用拒绝-选择做经验重加权。

\[ a^{(N)}=\arg\max_{i}\,Q(s,a_i),\quad a_i\sim\pi_{\mathrm{base}}(\cdot\mid s),\qquad \mathbb{E}\big[Q(a^{(N)})\big]\ \xrightarrow[N\to\infty]{}\ \!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}}\!\!Q \]

落到定律上:g ∝ 𝟙[a = argmax Q],只在采到的基模样本上选。这是“天花板 + 覆盖”最干净的演示。

12
当前期望质量 support内上界
青线 = best-of-N 的期望质量随 N 上升。它平滑地饱和到金色虚线(support 内上界),永远碰不到珊瑚虚线(全局最优,基模未覆盖)。要把好动作的密度 ε 撑起来,需要 N ∼ 1/ε——这就是覆盖系数 C
RL-token

自回归 / token 级 RL

对把动作离散成 token 的自回归 VLA(OpenVLA 类),可以像 RLHF 一样直接做 PPO / GRPO,奖励放在序列末端。这是“容易”的一类——token 策略有可解析的 softmax 似然,标准 policy gradient 能用,不像 flow。原则上它能把质量挪到任意 token 组合(离散动作空间的全 support)。

\[ \max_{\theta}\ \mathbb{E}_{a\sim\pi_\theta}\!\big[R(s,a)\big]\;-\;\beta\, D_{\mathrm{KL}}\!\big(\pi_\theta\,\|\,\pi_{\mathrm{base}}\big)\quad\Longrightarrow\quad \pi_\theta^\star\propto\pi_{\mathrm{base}}\,e^{\,Q/\beta} \]

关键 nuance:为了不崩,大家都加 β·KL 锚,于是又回到同一个 Gibbs 形式、同一个 near-support 偏置。再加上离散化本身限了精度。support 偏置不是 flow 独有的,它来自所有人为稳定而用的 KL 锚。

0.40
偏移 |x*−x₀|
钢蓝 = 奖励地形 R(近峰在基模处、远峰更高)。β↓ 让最优 πθ* 爬向远峰,但越过阈值就进入珊瑚色的 off-distribution 区(critic 外推不可靠、易崩);β↑ 把它钉在基模附近。稳定 vs 超越示范,是同一个张力的两端。
Q-chunking · 正交

分块动作上的 RL

分块动作空间里做 TD 学习:策略一次输出 \(k\) 步动作,critic 在 chunk 上做 n-step 回填。两个收益:(1) 有效 horizon 缩小 \(k\) 倍、credit assignment 更短、n-step 回报无偏;(2) 提交一个 chunk 带来时序一致的探索,不会出现逐步随机相互抵消的“原地抖动”。

\[ \hat Q\big(s_t,\mathbf a_{t:t+k}\big)=\sum_{i=0}^{k-1}\gamma^i r_{t+i}+\gamma^k\max_{\mathbf a'}Q\big(s_{t+k},\mathbf a'\big),\qquad H\ \to\ \lceil H/k\rceil \]

落到定律上:它不改 g、不改 support。它解决的是“长程稀疏奖励下 Q 学不出来、探索没效率”,让 RL 信号可用——这恰恰是上面那些 steering 方法(给了你一个可控旋钮)所缺的那一半。

8
逐步独立 净位移 分块 净位移
同一起点、同样的步数。钢蓝 = 每步独立采样(H=1),抖在原点附近(位移 ∼ √n);金色 = 每 H 步才重采方向、其余提交(位移 ∼ √(nH)),覆盖到外圈。H=1 时两者相同。
03

串起来:唯一的杠杆是基模的丰富度

把所有 steering 方法写成一个统一形式——保留富表达的基模,乘一个非负权重把输出推向高回报:

统一形式
\[ \pi(a\mid s)=\frac{1}{Z(s)}\,\pi_{\mathrm{base}}(a\mid s)\,g(s,a),\qquad g(s,a)\ge 0\ \ \Longrightarrow\ \ \operatorname{supp}\pi\subseteq\operatorname{supp}\pi_{\mathrm{base}} \]
方法权重 g(s,a) / 机制受 support 上界限制?
CFGRL(π_c/π_base)^w ∝ e^{wQ/β}
DSRL隐式;RL over z,a=f_base(z),可达 = flow 像集
test-time𝟙[a=argmax_i Q],a_i∼π_base
RL-tokene^{Q/β}(KL 锚;离散全 support 但被锚拉回)是(实践中)
Q-chunking不改 g;让 Q 可学(无偏 n-step、H→H/k、时序一致探索)正交

问题的形式化定义

命题(Steering 的可达性). 给定冻结基模 \(\pi_{\mathrm{base}}\) 与真实最优 \(a^\star(s)=\arg\max_a Q^\star(s,a)\)。任何形如 \(\pi(a\mid s)=\frac1{Z}\pi_{\mathrm{base}}(a\mid s)\,g(s,a),\ g\ge 0\) 的 steering 策略满足 \(\operatorname{supp}\pi\subseteq\operatorname{supp}\pi_{\mathrm{base}}\),故

\[ V_{\mathrm{steer}}(s)=\!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s)}\!\!Q^\star(s,a)\le V^\star(s),\qquad \Delta(s)=V^\star(s)-V_{\mathrm{steer}}(s)\ge0 \] \[ \Delta(s)=0\iff a^\star(s)\in\operatorname{supp}\pi_{\mathrm{base}};\qquad \text{样本复杂度}\ \propto\ C^\star=\mathbb{E}_{s\sim d^\star}\!\Big[\tfrac{1}{\pi_{\mathrm{base}}(a^\star(s)\mid s)}\Big] \]

结论。 在锚定/正则范式下,唯一能动 \(\Delta\) 和 \(C^\star\) 的杠杆是 \(\pi_{\mathrm{base}}\) 在有用但稀有的动作上的覆盖密度。因此目标不是再发明一个 flow-RL 算法(DSRL 那条线已经够用),而是两件事:(a) 最大化基模分布的覆盖宽度与好动作密度(更多样的预训练数据、刻意更高熵 / 更多样的示范)——把难点从 RL 推回 pretrain;(b) 一个能安全、自主地扩张 support 的闭环(steering 自举 → 自主 rollout 收略微 off-distribution 的成功 → 折回基模、长大它 → 重复),其前提是一个能替代人的失败检测 / 安全恢复 oracle。把这两件做好,上面五个方法才有真正的天花板可言。