OpenClaw-RL 深度论文研究报告：通过对话训练任何 Agent

📅 研究日期：2026-03-13
🔬 研究员：黄山 (wairesearch)
📎 论文：arXiv:2603.10165
📎 代码：Gen-Verse/OpenClaw-RL
📎 作者：Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang

执行摘要

OpenClaw-RL 是一个统一的强化学习框架，核心洞察极其简洁：

每次 Agent 交互都会产生一个”下一状态信号”（next-state signal）——用户回复、工具输出、终端状态变化——但没有任何现有系统将其作为实时在线学习来源。

OpenClaw-RL 将这些被浪费的信号回收为两种学习源：

评价信号（Evaluative） → 通过 PRM Judge 转换为标量奖励（Binary RL）
指导信号（Directive） → 通过 后见之明引导的在策略蒸馏（OPD） 转换为 token 级别的方向性监督

一句话总结：Agent 越用越好——通过正常使用就能自动优化，无需人工标注数据。

论文发布于 2026-03-10，发布当天登顶 HuggingFace Daily Papers #1。

一、问题定义：两种被浪费的信号

1.1 现状：Agent 正在丢弃最有价值的数据

每个已部署的 AI Agent 都在产生它所需的改进数据——然后丢弃它。

当 Agent 执行动作 $a_t$ 后，它收到下一状态信号 $s_{t+1}$：

用户回复（”不对，你应该先检查文件”）
工具执行结果（exit code, stdout/stderr）
GUI 状态变化（截图差异）
测试结果（pass/fail）

现有系统只把 $s_{t+1}$ 当作下一轮的上下文，完全忽略了它对 $a_t$ 的隐式评价。

1.2 浪费 1：评价信号（Evaluative Signals）

下一状态信号隐式评分了前一个动作：

场景	下一状态信号	隐含评价
用户重新提问	re-query	不满意 ❌
测试通过	pass	成功 ✅
错误追踪	error trace	失败 ❌
用户说”好的”	positive reply	满意 ✅

PRM（过程奖励模型） 之前几乎只在数学推理中使用（有可验证的标准答案）。OpenClaw-RL 将其扩展到所有交互类型。

1.3 浪费 2：指导信号（Directive Signals）

比评价更丰富——下一状态信号经常包含“应该怎么做”的信息：

用户说 “你应该先检查文件再编辑” → 不仅说了”错了”，还说了哪些 token 应该不同以及如何不同
SWE 错误追踪 → 通常暗示了具体的修正方向

当前的 RLVR 方法用标量奖励，无法将这种信息转换为方向性的策略梯度。

二、核心方法：两种互补的学习范式

2.1 Binary RL — 从评价信号中学习

动作 a_t → 下一状态 s_{t+1} → PRM Judge → r ∈ {+1, -1, 0} → PPO 训练

PRM Judge 构造：

给定 response $a_t$ 和 next state $s_{t+1}$，Judge 模型评估 $a_t$ 的质量
运行 $m$ 次独立查询，取多数投票 $r_{final} = MajorityVote(r_1, …, r_m)$
对个人 Agent：判断用户的下一条回复是否表达了满意/不满
对通用 Agent：判断环境反馈是否表明朝任务目标取得了进展

训练目标：标准 PPO 风格的 clipped surrogate loss，$\epsilon=0.2$, $\epsilon_{high}=0.28$, $\beta_{KL}=0.02$。

特点：覆盖面广（所有评分轮次都参与训练），但信号粗糙（每个样本只有 1 个标量）。

2.2 OPD（Hindsight-Guided On-Policy Distillation）— 从指导信号中学习 ⭐⭐⭐⭐⭐

这是论文最核心的创新。

核心洞察：如果我们用从 $s_{t+1}$ 中提取的文本 hint 增强原始 prompt，同一模型会产生不同的 token 分布——一个”知道”正确答案应该是什么的分布。两个分布之间的 per-token gap 就是方向性优势。

四步流程：

Step 1: 后见之明提示提取

Judge(a_t, s_{t+1}) → {score ∈ {+1, -1}, hint ∈ Text}

关键设计：不直接使用 $s_{t+1}$ 作为 hint。原始的下一状态信号往往嘈杂、冗长或包含无关信息。Judge 模型将 $s_{t+1}$ 蒸馏为简洁、可操作的指令（通常 1-3 句话）。

Step 2: Hint 选择和质量过滤

从正面投票中选择最长（最有信息量）的 hint
如果没有有效 hint → 直接丢弃样本
这是刻意的：OPD 用样本数量换取信号质量

Step 3: 增强教师构造

s_enhanced = s_t ⊕ "[user's hint]\n{hint}"

这个增强 prompt 就好像用户事先就告诉了 Agent 正确答案。

Step 4: Token 级别优势计算

A_t = log π_teacher(a_t | s_enhanced) - log π_θ(a_t | s_t)

$A_t > 0$：教师（知道 hint）认为这个 token 概率应该更高 → 学生应该加强
$A_t < 0$：教师认为这个 token 不太合适 → 学生应该削弱

与标量优势的本质区别：在同一个 response 中，有些 token 被强化，有些被抑制。这是真正的 per-token 方向性引导。

2.3 组合方法 — Binary RL + OPD

两种方法互补而非竞争：

维度	Binary RL	OPD	组合
信号类型	评价性（好/坏）	方向性	评价 + 方向
优势	序列级标量	Token 级方向性	混合
密度	所有评分轮次	仅有 hint 的轮次	所有评分轮次
反馈类型	用户/环境	显式纠正	隐式 + 显式
信号丰富度	每样本 1 个标量	每 token 1 个值	每 token 1 个值

组合优势公式：

\[A_t = w_{binary} \cdot r_{final} + w_{opd} \cdot (\log \pi_{teacher}(a_t | s_{enhanced}) - \log \pi_\theta(a_t | s_t))\]

三、系统架构：四组件完全解耦的异步流水线

3.1 架构总览

Policy Serving  →  Environment  →  Reward Judging  →  Policy Training
  (SGLang)         (HTTP/API)      (SGLang/API)       (Megatron)

四个组件完全异步运行，互不阻塞：
- 模型在服务下一个用户请求
- PRM 在评判上一个回复
- Trainer 在应用梯度更新
——没有任何一个在等待另一个

3.2 个人 Agent 的 Session 感知

环境就是用户的设备，通过机密 API 连接 RL 服务器。每个 API 请求分为两类：

类型	说明	是否训练
Main-line turn	Agent 的主要回复和工具执行结果	✅ 产生训练样本
Side turn	辅助查询、内存整理、环境转换	❌ 转发但不训练

3.3 支持的场景矩阵

场景	环境	下一状态信号	时间跨度
OpenClaw（个人）	个人设备	用户回复 / 工具调用结果	长
Terminal	Shell 执行沙箱	stdout/stderr, exit code	长
GUI	屏幕状态 + 可访问性树	视觉状态差异、任务进度	长
SWE	代码仓库 + 测试套件	测试结果、diff、lint 输出	长
Tool-call	API/函数执行	返回值、错误追踪	中

3.4 可扩展性

个人 Agent：单用户设备，稀疏、基于会话的交互流
通用 Agent：云服务托管数百个并行环境（Terminal 128个、GUI/SWE 64个、Tool-call 32个）

四、实验结果

4.1 个人 Agent：学生和老师场景

设置：用 LLM 模拟场景

学生：用 OpenClaw 做作业，不想被发现在用 AI
老师：用 OpenClaw 批改作业，希望评语具体且友善
基础模型：Qwen3-4B

结果（基线分数 0.17）：

方法	更新 8 步	更新 16 步
Binary RL	0.25	0.23
OPD	0.25	0.72
Combined	0.76	0.81

关键发现：

Binary RL 单独只提供边际改进
OPD 初期改进慢（因为训练样本稀疏），但后期爆发
组合方法大幅超越两者 → 证明互补性
学生场景：仅 36 次问题解答交互后，Agent 学会避免明显的 AI 风格表达
老师场景：仅 24 次批改交互后，Agent 学会写更友善、更详细的反馈

4.2 通用 Agent：跨场景 RL

场景	模型	集成奖励	仅结果奖励
Tool-call	Qwen3-4B-SFT	0.30	0.17
GUI	Qwen3VL-8B-Thinking	0.33	0.31

关键发现：集成过程奖励（PRM）+ 结果奖励显著优于仅结果奖励。特别是 tool-call 场景提升近一倍。

五、技术创新点评估

5.1 创新性评级

创新点	评级	评价
Next-state signal 作为在线学习源	⭐⭐⭐⭐⭐	观察简洁但深刻，将被丢弃的数据变为训练信号
OPD（后见之明引导蒸馏）	⭐⭐⭐⭐⭐	最核心创新，token 级方向性监督比标量奖励丰富得多
四组件异步架构	⭐⭐⭐⭐	工程上优雅，实现零中断服务
统一多场景 RL	⭐⭐⭐⭐	首次在同一框架中支持个人对话+Terminal+GUI+SWE+Tool-call
Binary + OPD 组合	⭐⭐⭐⭐	实验充分证明互补性

5.2 与现有方法的本质区别

RLHF：标量偏好信号 → 粗糙
DPO：需要成对偏好数据 → 离线
标准蒸馏：需要独立的更强教师模型 → 额外成本
后见之明重标注（HER/STaR/HIR）：在固定数据集上操作 → 离线

OpenClaw-RL OPD：
- 从实时下一状态信号中提取文本 hint（后见之明重标注）
- 模型作为自己在 hint 增强上下文下的教师（自蒸馏）
- 产生 token 级方向性优势监督
- 无需预收集数据、无需外部教师、无需成对偏好

5.3 OPD 的设计精妙之处

不直接用 $s_{t+1}$ 作为 hint：原始信号噪声大，用 Judge 蒸馏成 1-3 句简洁指令
严格的质量过滤：只有 hint > 10 字符且 Judge 打正分的样本才进入训练
样本量换信号质量：与 Binary RL 互补——Binary RL 提供广泛覆盖（粗信号），OPD 提供精确校正（少样本但高分辨率）
自教师：不需要更强的模型，同一模型在增强上下文下就是教师

六、对我们的启示

6.1 直接相关的应用价值

我们当前运行的 OpenClaw 多 Agent 系统，每天都在产生大量被浪费的 next-state signal：

我们的场景	被浪费的信号	潜在价值
用户纠正 Agent 回复	用户重新提问、修改指令	个性化偏好学习
代码执行结果	编译错误、测试结果	代码能力提升
搜索结果质量	用户是否继续追问	搜索策略优化
任务完成度	用户确认/否定	任务理解能力

6.2 短期可行动项

关注 LoRA 训练支持（已于 3/12 发布）——使用消费级 GPU 即可微调
Track 1 最适合我们：个人 Agent 的在线优化，无需大规模基础设施
推荐 Combined 方法：实验证明组合效果最佳

6.3 中期展望

OpenClaw-RL 路线图中的 “Beyond the policy: extend learning to skills and memory” 意味着未来不仅训练模型参数，还训练 Skills 和 Memory 文件
这将把 Agent 的个性化从”模型层面”扩展到”知识层面”

6.4 局限和注意事项

局限	说明
硬件需求高	默认 8×GPU，LoRA 降低了门槛但仍需关注
需要自托管模型	不适用于 API-only 的模型（如 Claude、GPT-4）
实验主要在 Qwen3 上	其他模型的效果有待验证
模拟实验为主	真实用户场景的长期效果有待观察
个人 Agent 交互稀疏	单用户的训练信号量有限，收敛可能较慢

七、论文在学术脉络中的位置

RL for LLMs 演进：
RLHF (2017) → DPO (2023) → GRPO/DeepSeek-R1 (2024-2025)
                                        ↓
                              批量离线训练
                                        ↓
              OpenClaw-RL (2026): 实时在线训练 ← 范式转变

Agentic RL 演进：
ReAct/Toolformer (2023) → SWE-agent (2024) → DigiRL/WebRL (2024)
         ↓                      ↓                    ↓
    单一场景，离线           单一场景，RL        单一场景，RL
                                        ↓
              OpenClaw-RL (2026): 统一多场景在线 RL ← 首次统一

PRM 演进：
Math-Shepherd (2024) → GenPRM (2025) → RLAnything (2026)
         ↓                    ↓                ↓
    数学推理               通用推理        多场景 Agent
                                        ↓
              OpenClaw-RL: 实时 PRM 从 next-state signal ← 在线化

八、参考来源

论文：OpenClaw-RL: Train Any Agent Simply by Talking (arXiv:2603.10165, 2026-03-10)
代码：Gen-Verse/OpenClaw-RL
HuggingFace Papers：papers/2603.10165
alphaXiv：overview/2603.10165
基础框架：THUDM/slime — 异步 RL 训练框架
相关工作：RLAnything [wang2026], ReasonFlux [yang2025], SuperCorrect [yang2025]

报告完成于 2026-03-13 12:38 UTC