VLA · 真机 RL · 一个分布层面的约束

Steering 是重新分配质量，
不是创造质量。

CFGRL、DSRL、test-time、RL-token、各种 steering —— 看起来路子很多，本质上是同一个操作：把冻结基模的分布乘上一个非负权重，往高回报的地方挪。这个操作有一个数学上的硬天花板，而且它和你用 flow 还是 autoregressive 无关。下面把每个方法落到这条定律上，并证明：唯一可调的杠杆，是预训练基模的分布要足够丰富、覆盖要足够广。

supp π^★ ⊆ supp π_base

下面这张图就是这条不等式的可视化。拖动两个滑块：把“steering 强度”拉满，达成值只会逼近 support 内的上界，差距 Δ 纹丝不动；只有把基模加宽，差距才会消失。

steering 强度 1/α0.56

基模覆盖宽度支持

已达成 E[Q] – support内上界 – 不可约支持差 Δ –

钢蓝 = 基模 π_base；金色 = steered 策略 π^★ ∝ π_base·e^Q/α；青色虚线 = 价值 Q(a)。两侧珊瑚色阴影 = support 之外（基模零质量的区域），全局最优就藏在右侧那堵墙外面。

把问题定义清楚

基模 \(\pi_{\mathrm{base}}(a\mid s)\) 来自模仿学习 / 预训练。我们想在它之上做 RL，最大化回报。几乎所有“在不弄崩基模的前提下做改进”的方法，实际优化的都是同一个 KL 正则的 RL 目标：

目标

\[ \max_{\pi}\ \mathbb{E}_{a\sim\pi(\cdot\mid s)}\!\big[Q(s,a)\big]\;-\;\alpha\, D_{\mathrm{KL}}\!\big(\pi(\cdot\mid s)\,\|\,\pi_{\mathrm{base}}(\cdot\mid s)\big) \]

这个 KL 项不是可有可无的装饰——它是稳定性的来源。去掉它，策略会漂到基模没见过的状态-动作上，critic 在那里外推不可靠，训练崩掉。所以无论 flow 还是 token，大家都带着这个锚。

这里有个常被误判的点：你列的“flow matching 没有好的 online RL 方法”，本质是个计算障碍——policy gradient 要 \(\log\pi(a\mid s)\) 或重要性比 \(\pi_{\text{new}}/\pi_{\text{old}}\)，而 flow 的密度要沿 ODE 积分速度场散度，解析上不可得。

但 DSRL（把 RL 移到噪声空间）、CFGRL（用引导权重）、test-time（直接选）都绕过了这个密度。所以计算障碍不是真正的墙。真正的墙是下面这条，它对任何生成式类别都成立：

中心问题

在不破坏稳定性（即带着 KL 锚或停留在基模 support 内）的前提下，steering 能达到的值上界是多少？由什么决定？

核心定理：重加权出不了 support

上面那个目标有闭式解，就是大家熟悉的 Gibbs / Boltzmann 形式（和 RLHF / DPO 里 \(\pi^\star\propto\pi_{\text{ref}}e^{r/\beta}\) 同一个东西）：

解

\[ \pi^\star(a\mid s)=\frac{1}{Z(s)}\,\pi_{\mathrm{base}}(a\mid s)\,\exp\!\Big(\tfrac{1}{\alpha}Q(s,a)\Big),\qquad Z(s)=\!\int\!\pi_{\mathrm{base}}(a\mid s)\,e^{Q(s,a)/\alpha}\,da \]

定理（support 包含）. 指数因子恒为正，只能给已有的质量重新加权，不能凭空造质量。于是

\[ \pi_{\mathrm{base}}(a\mid s)=0\ \Rightarrow\ \pi^\star(a\mid s)=0 \] \[ \Rightarrow\quad \operatorname{supp}\pi^\star(\cdot\mid s)\ \subseteq\ \operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s) \]

推论（性能天花板）. 令 \(\alpha\to 0\)（纯利用），steered 策略集中到 support 内 Q 最大的那个动作：

\[ V_{\mathrm{steer}}(s)=\!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s)}\!\!Q(s,a)\ \le\ \max_{a}Q(s,a)=V^\star(s) \] \[ \Delta(s)=V^\star(s)-V_{\mathrm{steer}}(s)\ge 0,\quad \Delta(s)=0\iff a^\star(s)\in\operatorname{supp}\pi_{\mathrm{base}} \]

这才是“对基模要求很高”的精确含义。 注意天花板由 support 决定，不是由基模均值表现决定。你不需要基模平均成功率高，你需要它偶尔能吐出那个好动作。

而且 support 包含只是渐近结论。更要命的是有限样本版本:steering（DSRL 等）是靠从 \(\pi_{\mathrm{base}}\) 采样、拿到反馈来发现好动作的。在 \(N\) 次采样里撞上密度为 \(\epsilon\) 的好动作的概率约 \(1-(1-\epsilon)^N\)，所以：

\[ N\ \sim\ \frac{1}{\pi_{\mathrm{base}}(a^\star\mid s)} \] \[ C^\star=\mathbb{E}_{s\sim d^\star}\!\left[\frac{1}{\pi_{\mathrm{base}}\!\big(a^\star(s)\mid s\big)}\right] \]

\(C^\star\) 就是 offline RL 里的覆盖 / concentrability 系数。基模在好动作上放的密度越高（分布越宽、越丰富），\(C^\star\) 越小，steering 越便宜；密度趋零，样本复杂度指数爆炸。结论：好动作不光要“在 support 里”，还要有不可忽略的密度。这就是“分布要足够广”的数学形式。

每个方法，都是这条定律的一个特例

下面五个里，前四个都是 \(\pi=\frac1Z\pi_{\mathrm{base}}\,g(s,a)\) 的不同实现（只是 \(g\) 的形式和算法不同）；Q-chunking 是正交的——它不改 \(g\)，它负责让 \(Q\) 本身能被学好。

CFGRL

Classifier-Free Guidance RL

把图像扩散里的无分类器引导搬过来。训练时让 flow/扩散在“最优性 / 高回报”条件 \(c\) 上做条件生成；采样时把引导权重 \(w\) 调大，沿 \(v_w=v_\varnothing+w\,(v_c-v_\varnothing)\) 外推，把分布推向高回报模式。

\[ \pi_w(a)\ \propto\ \pi_{\varnothing}(a)\Big(\tfrac{\pi_c(a)}{\pi_\varnothing(a)}\Big)^{\!w}\ \propto\ \pi_{\mathrm{base}}(a)\,e^{\,wQ(a)/\beta} \]

落到定律上：g = (π_c/π_base)^w ∝ e^{wQ/β}。引导权重 w 就是逆温度 1/α。w 再大也只是重加权 π_uncond，support 不变。

引导权重 w1.0

guided 熵 –w>1 = 外推 / 过度集中

钢蓝 = π_uncond（基模）；青虚线 = π_cond（高回报条件）；金色 = 引导结果。w↑ 把质量挤向高回报模式、熵下降，但永远落在基模 support 之内。

DSRL

Diffusion Steering via RL（噪声空间 RL）

冻结基模。注意动作是输入噪声的确定性函数 \(a=f_{\mathrm{base}}(z,s)\)（给定冻结 ODE）。于是不在动作空间做 RL（密度不可得），而是在噪声 \(z\) 上学一个策略 \(\pi_z(z\mid s)\)，用标准 off-policy RL（SAC）即可，基模当黑盒解码器。极省样本、只需前向访问。

\[ \max_{\pi_z}\ \mathbb{E}_{z\sim\pi_z(\cdot\mid s)}\big[Q\big(s,\,f_{\mathrm{base}}(z,s)\big)\big],\qquad a=f_{\mathrm{base}}(z,s) \]

落到定律上：可达动作集 = f_base(·,s) 的像 = supp π_base。换 z 只是在 support 内高效搜索，不是逃出 support。

拖动左侧噪声空间里的青点 → 看右侧动作随之移动。金色区域 = 噪声经冻结 flow 映射后的像集，正好等于基模 support。珊瑚色 a* 落在像集之外：无论选哪个 z 都到不了。这就是 support 包含定理的几何版。

test-time

测试时搜索 / Best-of-N

完全不训练策略。推理时从基模采 \(N\) 个候选动作，用价值 / 奖励模型打分，挑最好的（或做小规模搜索 / MPC）。本质是用拒绝-选择做经验重加权。

\[ a^{(N)}=\arg\max_{i}\,Q(s,a_i),\quad a_i\sim\pi_{\mathrm{base}}(\cdot\mid s),\qquad \mathbb{E}\big[Q(a^{(N)})\big]\ \xrightarrow[N\to\infty]{}\ \!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}}\!\!Q \]

落到定律上：g ∝ 𝟙[a = argmax Q]，只在采到的基模样本上选。这是“天花板 + 覆盖”最干净的演示。

采样数 N12

当前期望质量 –support内上界 –

青线 = best-of-N 的期望质量随 N 上升。它平滑地饱和到金色虚线（support 内上界），永远碰不到珊瑚虚线（全局最优，基模未覆盖）。要把好动作的密度 ε 撑起来，需要 N ∼ 1/ε——这就是覆盖系数 C^★。

RL-token

自回归 / token 级 RL

对把动作离散成 token 的自回归 VLA（OpenVLA 类），可以像 RLHF 一样直接做 PPO / GRPO，奖励放在序列末端。这是“容易”的一类——token 策略有可解析的 softmax 似然，标准 policy gradient 能用，不像 flow。原则上它能把质量挪到任意 token 组合（离散动作空间的全 support）。

\[ \max_{\theta}\ \mathbb{E}_{a\sim\pi_\theta}\!\big[R(s,a)\big]\;-\;\beta\, D_{\mathrm{KL}}\!\big(\pi_\theta\,\|\,\pi_{\mathrm{base}}\big)\quad\Longrightarrow\quad \pi_\theta^\star\propto\pi_{\mathrm{base}}\,e^{\,Q/\beta} \]

关键 nuance：为了不崩，大家都加 β·KL 锚，于是又回到同一个 Gibbs 形式、同一个 near-support 偏置。再加上离散化本身限了精度。support 偏置不是 flow 独有的，它来自所有人为稳定而用的 KL 锚。

KL 系数 β0.40

偏移 |x*−x₀| ––

钢蓝 = 奖励地形 R（近峰在基模处、远峰更高）。β↓ 让最优 π_θ* 爬向远峰，但越过阈值就进入珊瑚色的 off-distribution 区（critic 外推不可靠、易崩）；β↑ 把它钉在基模附近。稳定 vs 超越示范，是同一个张力的两端。

Q-chunking · 正交

分块动作上的 RL

在分块动作空间里做 TD 学习：策略一次输出 \(k\) 步动作，critic 在 chunk 上做 n-step 回填。两个收益：(1) 有效 horizon 缩小 \(k\) 倍、credit assignment 更短、n-step 回报无偏；(2) 提交一个 chunk 带来时序一致的探索，不会出现逐步随机相互抵消的“原地抖动”。

\[ \hat Q\big(s_t,\mathbf a_{t:t+k}\big)=\sum_{i=0}^{k-1}\gamma^i r_{t+i}+\gamma^k\max_{\mathbf a'}Q\big(s_{t+k},\mathbf a'\big),\qquad H\ \to\ \lceil H/k\rceil \]

落到定律上：它不改 g、不改 support。它解决的是“长程稀疏奖励下 Q 学不出来、探索没效率”，让 RL 信号可用——这恰恰是上面那些 steering 方法（给了你一个可控旋钮）所缺的那一半。

chunk 长度 H8

逐步独立净位移 –分块净位移 –

同一起点、同样的步数。钢蓝 = 每步独立采样（H=1），抖在原点附近（位移 ∼ √n）；金色 = 每 H 步才重采方向、其余提交（位移 ∼ √(nH)），覆盖到外圈。H=1 时两者相同。

串起来：唯一的杠杆是基模的丰富度

把所有 steering 方法写成一个统一形式——保留富表达的基模，乘一个非负权重把输出推向高回报：

统一形式

\[ \pi(a\mid s)=\frac{1}{Z(s)}\,\pi_{\mathrm{base}}(a\mid s)\,g(s,a),\qquad g(s,a)\ge 0\ \ \Longrightarrow\ \ \operatorname{supp}\pi\subseteq\operatorname{supp}\pi_{\mathrm{base}} \]

方法	权重 g(s,a) / 机制	受 support 上界限制？
CFGRL	(π_c/π_base)^w ∝ e^{wQ/β}	是
DSRL	隐式；RL over z，a=f_base(z)，可达 = flow 像集	是
test-time	𝟙[a=argmax_i Q]，a_i∼π_base	是
RL-token	e^{Q/β}（KL 锚；离散全 support 但被锚拉回）	是（实践中）
Q-chunking	不改 g；让 Q 可学（无偏 n-step、H→H/k、时序一致探索）	正交

问题的形式化定义

命题（Steering 的可达性）. 给定冻结基模 \(\pi_{\mathrm{base}}\) 与真实最优 \(a^\star(s)=\arg\max_a Q^\star(s,a)\)。任何形如 \(\pi(a\mid s)=\frac1{Z}\pi_{\mathrm{base}}(a\mid s)\,g(s,a),\ g\ge 0\) 的 steering 策略满足 \(\operatorname{supp}\pi\subseteq\operatorname{supp}\pi_{\mathrm{base}}\)，故

\[ V_{\mathrm{steer}}(s)=\!\!\max_{a\in\operatorname{supp}\pi_{\mathrm{base}}(\cdot\mid s)}\!\!Q^\star(s,a)\le V^\star(s),\qquad \Delta(s)=V^\star(s)-V_{\mathrm{steer}}(s)\ge0 \] \[ \Delta(s)=0\iff a^\star(s)\in\operatorname{supp}\pi_{\mathrm{base}};\qquad \text{样本复杂度}\ \propto\ C^\star=\mathbb{E}_{s\sim d^\star}\!\Big[\tfrac{1}{\pi_{\mathrm{base}}(a^\star(s)\mid s)}\Big] \]

结论。 在锚定/正则范式下，唯一能动 \(\Delta\) 和 \(C^\star\) 的杠杆是 \(\pi_{\mathrm{base}}\) 在有用但稀有的动作上的覆盖密度。因此目标不是再发明一个 flow-RL 算法（DSRL 那条线已经够用），而是两件事：(a) 最大化基模分布的覆盖宽度与好动作密度（更多样的预训练数据、刻意更高熵 / 更多样的示范）——把难点从 RL 推回 pretrain；(b) 一个能安全、自主地扩张 support 的闭环（steering 自举 → 自主 rollout 收略微 off-distribution 的成功 → 折回基模、长大它 → 重复），其前提是一个能替代人的失败检测 / 安全恢复 oracle。把这两件做好，上面五个方法才有真正的天花板可言。