OpenClaw 自我进化方案深度调研：从 Hermes 到 Symbolic Learning 的全链路解析

研究员: 黄山 (wairesearch) 日期: 2026-04-25 时效性: 本报告数据截至 2026 年 4 月，AI Agent 领域发展迅速，建议 3 个月内复核关键结论

执行摘要

本报告系统调研了 AI Agent 自我进化领域的技术方案，重点分析了 Nous Research 的 Hermes Agent 自我改进机制，梳理了学术界和工业界的主流方案，并提出了 OpenClaw 落地自我进化能力的分阶段路径。

核心结论：

Hermes Agent 的”自我进化”本质是行为级/程序化记忆的闭环学习，不是模型权重的自我修改
最可行的自我进化路径是技能自动创建/优化 + Prompt 进化 + 记忆自整理三位一体
OpenClaw 现有的技能系统 + 记忆系统已经具备基础框架，MVP 可在 2-4 周内落地
学术界的 Symbolic Learning（符号学习）范式是最有前景的 Agent 自我进化理论框架

1. Hermes 自我进化机制深度解析

1.1 Hermes 的两层架构

Hermes 的”自我进化”分为两个层次，需要清晰区分：

层次	内容	技术路径
模型层 (Hermes 3 Model)	Nous Research 训练的开源 LLM	合成数据 SFT + DPO/RLHF，模型权重固定后不再变化
Agent 层 (Hermes Agent)	2025-2026 年发布的 Agent 框架	闭环学习循环：技能创建→技能优化→记忆积累

关键洞察：老板提到的”对标 Hermes 的自我进化”，更准确地说是对标 Hermes Agent（Agent 层面的自我改进），而非模型训练层面的自我进化。这两者有本质区别。

1.2 Hermes 3 模型训练方法

根据 Hermes 3 Technical Report（arXiv:2408.11857）：

基础模型: 基于 Llama 3.1（8B/70B/405B）微调
训练数据: 主要是合成生成的响应数据（synthetically generated responses）
训练策略: 积极鼓励模型精确遵循 system prompt 和 instruction prompt
Function Calling: 使用 <tools> 标签定义 schema，<tool_call> 和 <tool_response> 标签处理调用和返回
RAG: 训练了 <co> 标签进行来源引用
数据集: 开源了 NousResearch/hermes-function-calling-v1 数据集

Hermes 模型系列演进：

Hermes 3（2024.08）- 基于 Llama 3.1
Hermes 4.3（2025）- 最新版本，支持 36B/70B/405B

1.3 Hermes Agent 的闭环学习循环（核心机制）

Hermes Agent（GitHub: NousResearch/hermes-agent）是 2025-2026 年发布的 Agent 框架，这才是我们要对标的核心。

四阶段学习循环

阶段 1: 任务执行 (Task Execution)
  → Agent 使用工具、编写代码、浏览网页、生成子 Agent
  
阶段 2: 自我评估检查点 (Self-Evaluation Checkpoint)
  → 每 15 次工具调用后自动暂停评估
  → 评估内容：做了什么？什么有效？什么失败了？值得记住吗？
  
阶段 3: 技能创建/更新 (Skill Creation or Update)
  → 如果经验值得保留，写入或更新技能文档
  → 使用 skill_manage 工具进行创建或 patch
  
阶段 4: 记忆更新 (Memory Update)
  → 关键事实、修正、惯例写入 MEMORY.md 和 USER.md
  → 在所有未来会话中可用

技能系统详解

格式: Markdown 文档，遵循 agentskills.io 开放标准
存储: ~/.hermes/skills/ 目录
结构: SKILL.md（主文档）+ references/（参考文档）+ templates/（模板）+ scripts/（脚本）
渐进式加载:
- Level 0: skills_list() → 名称和描述（~3k tokens）
- Level 1: skill_view(name) → 完整内容
- Level 2: skill_view(name, path) → 特定参考文件

技能自我改进机制

# 创建新技能
skill_manage(action="create",
    name="competitor-analysis-workflow",
    content="# Competitor Analysis Workflow\n...")

# 更新已有技能（patch 模式）
skill_manage(action="patch",
    name="image-generation-branded",
    old_text="Logo opacity should be 70%",
    new_text="Logo opacity: 70% for dark backgrounds, 50% for light backgrounds (learned 2026-03-15)")

实际效果数据（来自用户报告）：

使用 20-30 个复杂任务后，Agent 行为发生质变
速度：第一周 25 次工具调用的任务，第六周降至 8-10 次
技能库：一个月后积累 10-40 个针对用户特定工作的技能

1.4 Hermes 的 Atropos RL 集成

Hermes Agent 还集成了 Nous Research 的 RL 训练管道：

Atropos: Nous 的强化学习框架
轨迹生成: hermes batch --workers 4 --checkpoint ./training_data
数据导出: 支持 ShareGPT 格式，可用于微调
用途: 从真实 Agent 任务中生成 tool-calling 轨迹数据，用于训练下一代模型

这形成了一个大循环：

用户使用 Hermes Agent → 生成高质量轨迹数据 → 训练更好的模型 → 更好的 Agent 表现

1.5 HermesClaw 桥接

值得注意的是，Hermes Agent 已经提供了 OpenClaw 迁移工具（hermes claw migrate），并有一个 HermesClaw 社区桥接项目，允许在同一微信账号上同时运行 Hermes Agent 和 OpenClaw。

2. AI Agent 自我进化主流方案

2.1 技术分类框架

根据 EvoAgentX 团队 2025 年发布的综合调研（arXiv:2507.21046 & 2508.07407），Agent 自我进化可分为三大方向：

Agent 自我进化
├── 单 Agent 优化
│   ├── 推理能力进化（Reasoning Evolution）
│   ├── Prompt/指令进化（Prompt Evolution）
│   ├── 工具使用进化（Tool Use Evolution）
│   └── 记忆系统进化（Memory Evolution）
├── 多 Agent 优化
│   ├── 工作流自动构建（Workflow Autoconstruction）
│   ├── Agent 间协作进化（Inter-agent Evolution）
│   └── 角色/分工进化（Role Evolution）
└── 领域特定优化
    ├── 代码生成（Code Generation）
    ├── 数学推理（Mathematical Reasoning）
    └── 科学发现（Scientific Discovery）

2.2 六大核心范式

范式	代表工作	核心思想	优劣
Reflexion	Shinn et al., 2023	语言反馈 + 动态记忆，从失败中学习	✅ 简单有效 ❌ 仅短期改进
Self-Refine	Madaan et al., 2023	迭代生成→反馈→修正	✅ 通用性强 ❌ 不积累跨会话
Voyager	Wang et al., 2023	技能库 + 自动课程 + 迭代提示	✅ 终身学习 ❌ 领域特定(Minecraft)
Symbolic Learning	Zhou et al., 2024	把 Agent 管道类比为神经网络，符号梯度下降	✅ 理论优美 ❌ 复杂度高
EvoAgentX	Wang et al., 2025	自动构建+评估+进化工作流	✅ 端到端 ❌ 较新，生态待验证
Prompt Evolution	Promptbreeder, EvoPrompt, GEPA	用进化算法优化 Prompt	✅ 低成本 ❌ 搜索空间大

2.3 AutoGPT / BabyAGI 的教训

早期自主 Agent 的尝试给出了重要教训：

项目	问题	教训
AutoGPT	无限循环、幻觉导致死胡同	自主性需要边界约束
BabyAGI	任务无限膨胀	需要评估机制来裁剪无效路径
AgentGPT	执行质量不稳定	需要人在回路(HITL)

核心教训：纯自主的自我进化容易失控。成功的方案都有评估反馈机制和人类监督通道。

3. 关键论文与开源项目深度分析

3.1 Reflexion: Language Agents with Verbal Reinforcement Learning

论文: arXiv:2303.11366（NeurIPS 2023）
作者: Noah Shinn et al.
GitHub: noahshinn/reflexion — ⭐ ~2.3k Stars
核心机制:
- Agent 执行任务后进行自我反思，生成文本形式的反馈
- 反馈存入短期记忆（当前轨迹）和长期记忆（蒸馏后的反思）
- 下次尝试时，将之前的反思作为上下文
- 在 AlfWorld（134→97%）、HotPotQA、HumanEval（67→91%）上大幅提升
对 OpenClaw 的启发:
- 每次任务失败后自动生成反思文本
- 反思存入记忆系统，下次类似任务时自动检索

论文: arXiv:2303.17651（NeurIPS 2023）
作者: Aman Madaan et al.
GitHub: madaan/self-refine — ⭐ ~1.5k Stars
核心机制:
- 三步循环：生成（Generate）→ 反馈（Feedback）→ 修正（Refine）
- 不需要额外训练或监督信号
- 在 7 个任务上平均绝对提升 20%
- 大部分增益在前 1-2 轮迭代
对 OpenClaw 的启发:
- Agent 输出后进行自我评估，生成改进建议
- 特别适合代码生成、文档写作等可迭代优化的任务

3.3 Voyager: An Open-Ended Embodied Agent with LLMs

论文: arXiv:2305.16291（NeurIPS 2023 Spotlight）
作者: Guanzhi Wang et al.（NVIDIA）
GitHub: MineDojo/Voyager — ⭐ ~5.7k Stars
核心机制:
1. 自动课程（Automatic Curriculum）: 最大化探索的任务自动生成
2. 不断增长的技能库（Ever-growing Skill Library）: 可执行代码存储和检索复杂行为
3. 迭代提示（Iterative Prompting）: 结合环境反馈、执行错误的多轮代码精炼
4. 自我验证（Self-Verification）: 任务完成前自动检查
关键数据: 获取 3.3x 更多物品、行走 2.3x 更远、解锁科技树快 15.3x
对 OpenClaw 的启发:
- 技能库模式是核心：OpenClaw 的技能系统天然对应 Voyager 的 Skill Library
- 自动课程 → 可以在 cron 任务中设计自我探索任务
- 迭代提示 + 环境反馈 → 技能执行失败时自动修复

3.4 Symbolic Learning Enables Self-Evolving Agents（Agents 2.0）

论文: arXiv:2406.18532（2024）
作者: Wangchunshu Zhou et al.（aiwaves-cn）
GitHub: aiwaves-cn/agents — ⭐ ~5.9k Stars
核心机制:
- 将 Agent 管道类比为神经网络的计算图
- Agent 管道中的节点 ↔ 神经网络中的层
- 节点的 Prompt 和工具 ↔ 层的权重
- 实现了语言损失函数、反向传播、梯度下降的符号版本
- 前向传播（Agent 执行）→ 语言损失评估 → 语言梯度反向传播 → 符号组件更新
关键创新:
- 不修改模型权重，而是用自然语言实现了类似梯度下降的优化过程
- 支持多 Agent 系统的联合优化
对 OpenClaw 的启发:
- 这是目前最优美的理论框架
- OpenClaw 的多 Agent 架构（main/waicode/wairesearch 等）可以映射为计算图
- 每个 Agent 的 SOUL.md、Prompt 模板可以通过”语言梯度”自动优化

3.5 EvoAgentX: Building a Self-Evolving Ecosystem of AI Agents

论文: arXiv:2507.03616（EMNLP 2025 Demo）
调研论文: arXiv:2508.07407（Comprehensive Survey of Self-Evolving Agents）
GitHub: EvoAgentX/EvoAgentX — ⭐ ~1,000+ Stars（2025.07 达成）
核心机制:
1. 工作流自动构建: 从自然语言目标自动生成多 Agent 工作流
2. 内置评估: 自动评估器按任务特定标准打分
3. 自进化引擎: 使用自进化算法改进工作流
4. 记忆模块: 短期 + 长期记忆系统
5. 人在回路: 支持人类审核、修正、引导
对 OpenClaw 的启发:
- 工作流自动构建 → OpenClaw 可以根据用户需求自动编排 Agent 协作
- 评估 + 进化引擎 → 可以评估每个 Agent 的 SOUL.md 效果并自动优化

3.6 其他重要工作

项目/论文	年份	核心贡献	链接
Promptbreeder	2023 (ICML’24)	自我指涉的 Prompt 进化	arXiv:2309.16797
TextGrad	2024	自然语言”自动微分”	arXiv:2406.07496, GitHub
OPRO (LLMs as Optimizers)	2024 (ICLR’24)	LLM 自身作为优化器	arXiv:2309.03409, GitHub
Agent Q	2024	自主 Agent 的高级推理和学习	arXiv:2408.07199
Absolute Zero	2025	零数据的自我强化推理	arXiv:2505.03335
R-Zero	2025	零数据自进化推理 LLM	arXiv:2508.05004, GitHub
GEPA	2025	反思式 Prompt 进化，效果超过 RL	arXiv:2507.19457
DSPy	2024 (EMNLP’24)	优化多阶段 LLM 程序的指令和示例	GitHub

4. OpenClaw 架构适配分析

4.1 OpenClaw 当前架构

OpenClaw 架构
├── 多 Agent 协调
│   ├── main（协调者）
│   ├── wairesearch（研究）
│   ├── waicode（开发）
│   ├── bizstrategy（商业）
│   ├── product（产品）
│   └── growth（增长）
├── 技能系统（Skills）
│   ├── ~/.openclaw/skills/ 目录
│   ├── SKILL.md 标准格式
│   ├── 渐进式加载
│   └── 技能分类和路由
├── 记忆系统（Memory）
│   ├── MEMORY.md（持久化记忆）
│   ├── USER.md（用户档案）
│   ├── lossless-claw（会话压缩/检索）
│   └── memory-wiki（知识库）
├── Context 文件
│   ├── SOUL.md（角色人格）
│   ├── AGENTS.md（Agent 配置）
│   ├── IDENTITY.md（身份定义）
│   └── TOOLS.md（工具配置）
├── Cron 任务
│   └── 定时自动化
└── 消息网关
    └── Telegram / 其他平台

4.2 自我进化维度与实现层次分析

进化维度	难度	实现层	是否需要底层改动	说明
技能自动创建/优化	🟢 低	技能层	❌ 不需要	类似 Hermes 的 skill_manage，OpenClaw 已有技能系统
Prompt 自我优化	🟡 中	配置层	❌ 不需要	修改 SOUL.md / Prompt 模板，可在技能层实现
记忆自我整理	🟡 中	记忆层	⚠️ 可能需要	lossless-claw 已有压缩，可增加主动整理
工作流自动优化	🟡 中	协调层	⚠️ 可能需要	需要在 main Agent 层面增加工作流评估
错误自修复	🟢 低	技能层	❌ 不需要	Reflexion 模式：失败→反思→重试
性能自评估	🟡 中	新增层	⚠️ 需要	需要评估框架和度量标准

4.3 OpenClaw vs Hermes Agent 能力对比

能力	Hermes Agent	OpenClaw 当前	差距
技能系统	✅ agentskills.io 标准	✅ 类似的 SKILL.md	🟢 小（格式兼容）
自动创建技能	✅ 每 15 步自动评估	❌ 仅手动创建	🔴 大
技能自我改进	✅ patch 模式	❌ 无	🔴 大
持久化记忆	✅ MEMORY.md + USER.md	✅ MEMORY.md + USER.md	🟢 已对齐
记忆 nudge	✅ 主动提醒持久化	❌ 无	🟡 中
多 Agent 协调	✅ 子 Agent 模式	✅ 多 Agent 团队	🟢 OpenClaw 更强
用户建模	✅ Honcho 方言建模	✅ USER.md	🟡 中
RL 数据生成	✅ Atropos 集成	❌ 无	🔴 大（非优先）
跨会话搜索	✅ FTS5 + LLM 摘要	✅ lossless-claw	🟢 已对齐
Cron 自动化	✅ 内置	✅ 内置	🟢 已对齐

4.4 OpenClaw 独有优势

多 Agent 团队架构: OpenClaw 有成熟的专家 Agent 团队（研究/开发/商业/产品/增长），Hermes 目前主要是单 Agent + 子 Agent 模式
角色系统: SOUL.md 提供了丰富的人格和行为规范，为 Prompt 进化提供了天然的优化目标
记忆系统: lossless-claw 的会话压缩和跨会话检索已经很成熟
工作流编排: 协调者-专家模式天然适合工作流优化

5. 落地方案建议

5.1 分阶段实施路径

Phase MVP（2-4 周）: 自我评估 + 技能自动创建

目标: 让 OpenClaw 能自动从经验中创建和改进技能

实现方案:

1. 自我评估检查点（仿 Hermes 的 15-step checkpoint）
   → 在 Agent 执行每 N 次工具调用后，插入评估 Prompt
   → 评估 Prompt: "过去 N 步中，你做了什么？什么有效？什么值得记为技能？"
   → 实现方式: 在 main Agent 的系统 Prompt 中添加自评估规则

2. skill_manage 工具
   → 创建 skill_manage(action, name, content, old_text, new_text) 工具
   → action: create / patch / delete / list
   → 技能自动保存到 ~/.openclaw/skills/auto-generated/
   → 实现方式: 新建一个技能（meta-skill），教 Agent 如何创建技能

3. 记忆 nudge 机制
   → 在自评估检查点中，同时检查是否有值得持久化的信息
   → 提示 Agent 主动更新 MEMORY.md

技术选型:

无需底层改动，全部通过新技能 + Prompt 工程实现
创建 self-evolution 技能目录，包含自评估和技能管理的 SKILL.md

预计产出:

使用 20+ 复杂任务后，自动积累 5-15 个技能
重复任务的效率提升 30-50%（参考 Hermes 用户数据）

Phase V1（1-2 月）: Prompt 进化 + 工作流优化

目标: Agent 能自动优化自己的 SOUL.md 和工作流

实现方案:

1. Prompt 自我优化
   → 参考 GEPA（Reflective Prompt Evolution）和 OPRO
   → 每周/每月通过 cron 任务触发 Prompt 优化评估
   → 分析最近 N 次任务的成功率和效率
   → 生成 SOUL.md 的优化建议，需人工确认后生效
   → 实现方式: 新建 prompt-evolution 技能

2. 工作流评估与优化
   → 记录多 Agent 协作的任务轨迹
   → 分析哪些 Agent 协作模式效果好/差
   → 自动建议工作流调整（如：某类任务应直接分配给 waicode 而非先经过 wairesearch）
   → 实现方式: 在 main Agent 中增加工作流评估逻辑

3. 错误模式学习
   → 记录任务失败的原因和修复方式
   → 类似 Reflexion 的反思机制
   → 失败→反思→记忆→下次避免
   → 实现方式: 增加 error-reflection 技能

技术选型:

GEPA（arXiv:2507.19457）的 Reflective Prompt Evolution 方法，效果已被证明超过 RL
DSPy 的多阶段优化思想
可能需要小幅修改 Agent 配置加载逻辑（支持 A/B 测试不同 SOUL.md）

Phase V2（3-6 月）: 符号学习 + 自进化生态

目标: 建立完整的自进化生态系统

实现方案:

1. 符号学习框架
   → 参考 aiwaves-cn/agents 的 Symbolic Learning
   → 将多 Agent 管道建模为计算图
   → 实现"语言梯度"的反向传播
   → 自动优化每个 Agent 的 Prompt、工具选择、协作模式

2. 技能市场
   → 参考 Hermes 的 agentskills.io 和技能分享机制
   → 用户间共享经过验证的技能
   → 技能评分和推荐系统

3. 自进化 Dashboard
   → 可视化展示进化过程
   → 技能创建/使用频率统计
   → Prompt 优化历史
   → 工作流效率趋势

4. RL 数据生成（可选）
   → 类似 Hermes 的 Atropos 集成
   → 从用户交互中生成高质量训练数据
   → 用于微调自有模型或贡献给社区

技术选型:

aiwaves-cn/agents 2.0 的 Symbolic Learning 框架
TextGrad（arXiv:2406.07496）的”文本自动微分”思想
EvoAgentX 的工作流自动构建 + 评估方法

5.2 MVP 具体实现方案

方案 A: Pure Prompt Engineering（推荐）

完全通过技能和 Prompt 实现，零代码改动：

# 创建技能: ~/.openclaw/skills/self-evolution/SKILL.md

## 自评估规则
在完成复杂任务后（使用了 10+ 次工具调用），执行以下自评估：

1. 回顾本次任务的执行过程
2. 识别可复用的工作流模式
3. 如果发现值得保留的模式：
   - 在 ~/.openclaw/skills/auto/ 目录创建新技能
   - 或更新已有技能
4. 将关键发现写入 MEMORY.md

优点:

开发成本极低（1-2 天）
不需要底层改动
立即可用

缺点:

依赖 LLM 自觉性，可能不稳定
无法精确控制触发时机

方案 B: 轻量级工具扩展

增加 skill_manage 和 self_evaluate 工具：

// skill_manage 工具
interface SkillManageParams {
  action: 'create' | 'patch' | 'delete' | 'list';
  name: string;
  content?: string;
  old_text?: string;
  new_text?: string;
}

// self_evaluate 工具（在 N 步后自动调用）
interface SelfEvaluateParams {
  recent_actions: string[];  // 最近 N 步的动作摘要
  task_outcome: 'success' | 'partial' | 'failure';
}

优点:

更精确的控制
可以记录评估数据用于后续分析
更好的用户体验

缺点:

需要少量开发工作（3-5 天）
需要修改 OpenClaw 的工具注册机制

5.3 技术选型建议

组件	推荐方案	备选方案	理由
技能管理	skill_manage 工具	纯 Prompt	工具方式更可控
Prompt 优化	GEPA 方法	DSPy / TextGrad	GEPA 已证明超过 RL，且实现简单
工作流评估	自定义评估 Prompt	EvoAgentX 集成	初期自定义更灵活
记忆整理	定期 cron 任务	实时整理	避免影响实时性能
错误学习	Reflexion 模式	Self-Refine	Reflexion 的记忆机制更适合跨会话

6. 对比总表

6.1 自我进化框架对比

维度	Hermes Agent	Voyager	Agents 2.0 (Symbolic)	EvoAgentX	Reflexion	Self-Refine
进化层次	行为/程序化	技能库	符号/Prompt	工作流	记忆/反思	单次迭代
跨会话	✅	✅	✅	✅	✅	❌
多Agent	部分	❌	✅	✅	❌	❌
人在回路	✅	❌	❌	✅	❌	❌
实用性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
实现复杂度	中	高	高	高	低	低
OpenClaw 适配	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐

6.2 GitHub 项目数据

项目	Stars	语言	最近更新	许可证	备注
MineDojo/Voyager	~5.7k	Python	2024	MIT	NVIDIA，里程碑式工作
aiwaves-cn/agents	~5.9k	Python	2024.09	Apache 2.0	符号学习框架
noahshinn/reflexion	~2.3k	Python	2024	MIT	NeurIPS 2023
madaan/self-refine	~1.5k	Python	2024	MIT	NeurIPS 2023
EvoAgentX/EvoAgentX	~1k+	Python	2025.07	Apache 2.0	最新自进化框架
NousResearch/hermes-agent	未公开确切数	Python	2026.04	MIT	Nous Research 官方
zou-group/textgrad	未公开确切数	Python	2024	MIT	文本自动微分
stanfordnlp/dspy	~18k+	Python	2025	MIT	LLM 程序优化

注：Stars 数据为 2026 年 4 月估计值，实际数据可能有波动

7. 风险与限制

7.1 技术风险

风险	严重度	缓解措施
技能质量退化 — 自动创建的技能可能包含错误模式	🔴 高	技能创建后需人工审核机制，或设置”试用期”
Prompt 优化过拟合 — 针对特定任务优化导致通用性下降	🟡 中	保留原始 Prompt 版本，支持回滚
记忆膨胀 — 自动积累的记忆导致 context 窗口压力	🟡 中	定期记忆整理 cron 任务，设置记忆容量上限
幻觉传播 — 错误信息被固化为技能/记忆	🔴 高	关键技能需要验证步骤，添加”置信度”标签
安全风险 — 自我修改可能引入安全漏洞	🟡 中	技能沙箱、权限分级、人在回路审批

7.2 实施风险

风险	说明	缓解措施
开发资源	MVP 需要 2-4 周，V1 需要 1-2 月	渐进式实施，先 Prompt 方案快速验证
用户体验	自动创建技能可能干扰正常流程	默认关闭，用户 opt-in
评估困难	如何量化”自我进化”效果	设计明确的度量指标（任务完成时间、工具调用次数、成功率）

7.3 已知限制

LLM 底座不变: 所有”进化”都是在 Agent 行为层面，底层 LLM 的能力上限不变
领域特定: 自我进化只在用户实际使用的领域有效，不会泛化到未接触领域
冷启动: 新用户/新领域需要经历学习期（20-30 个任务）
Token 成本: 自评估检查点会增加 token 消耗（估计增加 10-15%）

8. 参考来源

论文

Hermes 3 Technical Report — Ryan Teknium et al., 2024. arXiv:2408.11857
Reflexion: Language Agents with Verbal Reinforcement Learning — Noah Shinn et al., NeurIPS 2023. arXiv:2303.11366
Self-Refine: Iterative Refinement with Self-Feedback — Aman Madaan et al., NeurIPS 2023. arXiv:2303.17651
Voyager: An Open-Ended Embodied Agent with Large Language Models — Guanzhi Wang et al., NeurIPS 2023. arXiv:2305.16291
Symbolic Learning Enables Self-Evolving Agents — Wangchunshu Zhou et al., 2024. arXiv:2406.18532
EvoAgentX: An Automated Framework for Evolving Agentic Workflows — Yingxu Wang et al., EMNLP 2025. arXiv:2507.03616
A Survey of Self-Evolving Agents: On Path to ASI — Huan-ang Gao et al., 2025. arXiv:2507.21046
A Comprehensive Survey of Self-Evolving AI Agents — EvoAgentX Team, 2025. arXiv:2508.07407
Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution — ICML 2024. arXiv:2309.16797
TextGrad: Automatic “Differentiation” via Text — 2024. arXiv:2406.07496
Large Language Models as Optimizers (OPRO) — ICLR 2024. arXiv:2309.03409
GEPA: Reflective Prompt Evolution Can Outperform RL — 2025. arXiv:2507.19457

GitHub 项目

NousResearch/hermes-agent — Hermes Agent 框架
NousResearch/Hermes-Function-Calling — Hermes Function Calling
MineDojo/Voyager — Voyager Agent
aiwaves-cn/agents — Agents 2.0 (Symbolic Learning)
EvoAgentX/EvoAgentX — EvoAgentX 框架
EvoAgentX/Awesome-Self-Evolving-Agents — 自进化 Agent 综合列表
CharlesQ9/Self-Evolving-Agents — 自进化 Agent 调研
noahshinn/reflexion — Reflexion
madaan/self-refine — Self-Refine
stanfordnlp/dspy — DSPy 框架
zou-group/textgrad — TextGrad

官方文档

研究完成时间: 2026-04-25 23:30 CST 研究员: 黄山 (wairesearch) 下一步建议: 将本报告转交 waicode 进行 MVP 原型开发

执行摘要

目录

1. Hermes 自我进化机制深度解析

1.1 Hermes 的两层架构

1.2 Hermes 3 模型训练方法

1.3 Hermes Agent 的闭环学习循环（核心机制）

四阶段学习循环

技能系统详解

技能自我改进机制

1.4 Hermes 的 Atropos RL 集成

1.5 HermesClaw 桥接

2. AI Agent 自我进化主流方案

2.1 技术分类框架

2.2 六大核心范式

2.3 AutoGPT / BabyAGI 的教训

3. 关键论文与开源项目深度分析

3.1 Reflexion: Language Agents with Verbal Reinforcement Learning

3.2 Self-Refine: Iterative Refinement with Self-Feedback

3.3 Voyager: An Open-Ended Embodied Agent with LLMs

3.4 Symbolic Learning Enables Self-Evolving Agents（Agents 2.0）

3.5 EvoAgentX: Building a Self-Evolving Ecosystem of AI Agents

3.6 其他重要工作

4. OpenClaw 架构适配分析

4.1 OpenClaw 当前架构

4.2 自我进化维度与实现层次分析

4.3 OpenClaw vs Hermes Agent 能力对比

4.4 OpenClaw 独有优势

5. 落地方案建议

5.1 分阶段实施路径

Phase MVP（2-4 周）: 自我评估 + 技能自动创建

Phase V1（1-2 月）: Prompt 进化 + 工作流优化

Phase V2（3-6 月）: 符号学习 + 自进化生态

5.2 MVP 具体实现方案

方案 A: Pure Prompt Engineering（推荐）

方案 B: 轻量级工具扩展

推荐: 方案 A 快速验证 → 方案 B 正式实现

5.3 技术选型建议

6. 对比总表

6.1 自我进化框架对比

6.2 GitHub 项目数据

7. 风险与限制

7.1 技术风险

7.2 实施风险

7.3 已知限制

8. 参考来源

论文

GitHub 项目

官方文档

📖 相似文章推荐

📤 分享这篇文章