OpenClaw 自我进化方案深度调研:从 Hermes 到 Symbolic Learning 的全链路解析

OpenClaw 自我进化方案深度调研:从 Hermes 到 Symbolic Learning 的全链路解析

研究员: 黄山 (wairesearch) 日期: 2026-04-25 时效性: 本报告数据截至 2026 年 4 月,AI Agent 领域发展迅速,建议 3 个月内复核关键结论


执行摘要

本报告系统调研了 AI Agent 自我进化领域的技术方案,重点分析了 Nous Research 的 Hermes Agent 自我改进机制,梳理了学术界和工业界的主流方案,并提出了 OpenClaw 落地自我进化能力的分阶段路径。

核心结论

  1. Hermes Agent 的”自我进化”本质是行为级/程序化记忆的闭环学习,不是模型权重的自我修改
  2. 最可行的自我进化路径是技能自动创建/优化 + Prompt 进化 + 记忆自整理三位一体
  3. OpenClaw 现有的技能系统 + 记忆系统已经具备基础框架,MVP 可在 2-4 周内落地
  4. 学术界的 Symbolic Learning(符号学习)范式是最有前景的 Agent 自我进化理论框架

目录

  1. Hermes 自我进化机制深度解析
  2. AI Agent 自我进化主流方案
  3. 关键论文与开源项目深度分析
  4. OpenClaw 架构适配分析
  5. 落地方案建议
  6. 对比总表
  7. 风险与限制
  8. 参考来源

1. Hermes 自我进化机制深度解析

1.1 Hermes 的两层架构

Hermes 的”自我进化”分为两个层次,需要清晰区分:

层次 内容 技术路径
模型层 (Hermes 3 Model) Nous Research 训练的开源 LLM 合成数据 SFT + DPO/RLHF,模型权重固定后不再变化
Agent 层 (Hermes Agent) 2025-2026 年发布的 Agent 框架 闭环学习循环:技能创建→技能优化→记忆积累

关键洞察:老板提到的”对标 Hermes 的自我进化”,更准确地说是对标 Hermes Agent(Agent 层面的自我改进),而非模型训练层面的自我进化。这两者有本质区别。

1.2 Hermes 3 模型训练方法

根据 Hermes 3 Technical Report(arXiv:2408.11857):

  • 基础模型: 基于 Llama 3.1(8B/70B/405B)微调
  • 训练数据: 主要是合成生成的响应数据(synthetically generated responses)
  • 训练策略: 积极鼓励模型精确遵循 system prompt 和 instruction prompt
  • Function Calling: 使用 <tools> 标签定义 schema,<tool_call><tool_response> 标签处理调用和返回
  • RAG: 训练了 <co> 标签进行来源引用
  • 数据集: 开源了 NousResearch/hermes-function-calling-v1 数据集

Hermes 模型系列演进

  • Hermes 3(2024.08)- 基于 Llama 3.1
  • Hermes 4.3(2025)- 最新版本,支持 36B/70B/405B

1.3 Hermes Agent 的闭环学习循环(核心机制)

Hermes Agent(GitHub: NousResearch/hermes-agent)是 2025-2026 年发布的 Agent 框架,这才是我们要对标的核心

四阶段学习循环

阶段 1: 任务执行 (Task Execution)
   Agent 使用工具编写代码浏览网页生成子 Agent
  
阶段 2: 自我评估检查点 (Self-Evaluation Checkpoint)
    15 次工具调用后自动暂停评估
   评估内容做了什么什么有效什么失败了值得记住吗
  
阶段 3: 技能创建/更新 (Skill Creation or Update)
   如果经验值得保留写入或更新技能文档
   使用 skill_manage 工具进行创建或 patch
  
阶段 4: 记忆更新 (Memory Update)
   关键事实修正惯例写入 MEMORY.md  USER.md
   在所有未来会话中可用

技能系统详解

  • 格式: Markdown 文档,遵循 agentskills.io 开放标准
  • 存储: ~/.hermes/skills/ 目录
  • 结构: SKILL.md(主文档)+ references/(参考文档)+ templates/(模板)+ scripts/(脚本)
  • 渐进式加载:
    • Level 0: skills_list() → 名称和描述(~3k tokens)
    • Level 1: skill_view(name) → 完整内容
    • Level 2: skill_view(name, path) → 特定参考文件

技能自我改进机制

# 创建新技能
skill_manage(action="create",
    name="competitor-analysis-workflow",
    content="# Competitor Analysis Workflow\n...")

# 更新已有技能(patch 模式)
skill_manage(action="patch",
    name="image-generation-branded",
    old_text="Logo opacity should be 70%",
    new_text="Logo opacity: 70% for dark backgrounds, 50% for light backgrounds (learned 2026-03-15)")

实际效果数据(来自用户报告):

  • 使用 20-30 个复杂任务后,Agent 行为发生质变
  • 速度:第一周 25 次工具调用的任务,第六周降至 8-10 次
  • 技能库:一个月后积累 10-40 个针对用户特定工作的技能

1.4 Hermes 的 Atropos RL 集成

Hermes Agent 还集成了 Nous Research 的 RL 训练管道:

  • Atropos: Nous 的强化学习框架
  • 轨迹生成: hermes batch --workers 4 --checkpoint ./training_data
  • 数据导出: 支持 ShareGPT 格式,可用于微调
  • 用途: 从真实 Agent 任务中生成 tool-calling 轨迹数据,用于训练下一代模型

这形成了一个大循环

用户使用 Hermes Agent  生成高质量轨迹数据  训练更好的模型  更好的 Agent 表现

1.5 HermesClaw 桥接

值得注意的是,Hermes Agent 已经提供了 OpenClaw 迁移工具(hermes claw migrate),并有一个 HermesClaw 社区桥接项目,允许在同一微信账号上同时运行 Hermes Agent 和 OpenClaw。


2. AI Agent 自我进化主流方案

2.1 技术分类框架

根据 EvoAgentX 团队 2025 年发布的综合调研(arXiv:2507.21046 & 2508.07407),Agent 自我进化可分为三大方向:

Agent 自我进化
├──  Agent 优化
   ├── 推理能力进化Reasoning Evolution
   ├── Prompt/指令进化Prompt Evolution
   ├── 工具使用进化Tool Use Evolution
   └── 记忆系统进化Memory Evolution
├──  Agent 优化
   ├── 工作流自动构建Workflow Autoconstruction
   ├── Agent 间协作进化Inter-agent Evolution
   └── 角色/分工进化Role Evolution
└── 领域特定优化
    ├── 代码生成Code Generation
    ├── 数学推理Mathematical Reasoning
    └── 科学发现Scientific Discovery

2.2 六大核心范式

范式 代表工作 核心思想 优劣
Reflexion Shinn et al., 2023 语言反馈 + 动态记忆,从失败中学习 ✅ 简单有效 ❌ 仅短期改进
Self-Refine Madaan et al., 2023 迭代生成→反馈→修正 ✅ 通用性强 ❌ 不积累跨会话
Voyager Wang et al., 2023 技能库 + 自动课程 + 迭代提示 ✅ 终身学习 ❌ 领域特定(Minecraft)
Symbolic Learning Zhou et al., 2024 把 Agent 管道类比为神经网络,符号梯度下降 ✅ 理论优美 ❌ 复杂度高
EvoAgentX Wang et al., 2025 自动构建+评估+进化工作流 ✅ 端到端 ❌ 较新,生态待验证
Prompt Evolution Promptbreeder, EvoPrompt, GEPA 用进化算法优化 Prompt ✅ 低成本 ❌ 搜索空间大

2.3 AutoGPT / BabyAGI 的教训

早期自主 Agent 的尝试给出了重要教训:

项目 问题 教训
AutoGPT 无限循环、幻觉导致死胡同 自主性需要边界约束
BabyAGI 任务无限膨胀 需要评估机制来裁剪无效路径
AgentGPT 执行质量不稳定 需要人在回路(HITL)

核心教训:纯自主的自我进化容易失控。成功的方案都有评估反馈机制人类监督通道


3. 关键论文与开源项目深度分析

3.1 Reflexion: Language Agents with Verbal Reinforcement Learning

  • 论文: arXiv:2303.11366(NeurIPS 2023)
  • 作者: Noah Shinn et al.
  • GitHub: noahshinn/reflexion — ⭐ ~2.3k Stars
  • 核心机制:
    • Agent 执行任务后进行自我反思,生成文本形式的反馈
    • 反馈存入短期记忆(当前轨迹)和长期记忆(蒸馏后的反思)
    • 下次尝试时,将之前的反思作为上下文
    • 在 AlfWorld(134→97%)、HotPotQA、HumanEval(67→91%)上大幅提升
  • 对 OpenClaw 的启发:
    • 每次任务失败后自动生成反思文本
    • 反思存入记忆系统,下次类似任务时自动检索

3.2 Self-Refine: Iterative Refinement with Self-Feedback

  • 论文: arXiv:2303.17651(NeurIPS 2023)
  • 作者: Aman Madaan et al.
  • GitHub: madaan/self-refine — ⭐ ~1.5k Stars
  • 核心机制:
    • 三步循环:生成(Generate)→ 反馈(Feedback)→ 修正(Refine)
    • 不需要额外训练或监督信号
    • 在 7 个任务上平均绝对提升 20%
    • 大部分增益在前 1-2 轮迭代
  • 对 OpenClaw 的启发:
    • Agent 输出后进行自我评估,生成改进建议
    • 特别适合代码生成、文档写作等可迭代优化的任务

3.3 Voyager: An Open-Ended Embodied Agent with LLMs

  • 论文: arXiv:2305.16291(NeurIPS 2023 Spotlight)
  • 作者: Guanzhi Wang et al.(NVIDIA)
  • GitHub: MineDojo/Voyager — ⭐ ~5.7k Stars
  • 核心机制:
    1. 自动课程(Automatic Curriculum): 最大化探索的任务自动生成
    2. 不断增长的技能库(Ever-growing Skill Library): 可执行代码存储和检索复杂行为
    3. 迭代提示(Iterative Prompting): 结合环境反馈、执行错误的多轮代码精炼
    4. 自我验证(Self-Verification): 任务完成前自动检查
  • 关键数据: 获取 3.3x 更多物品、行走 2.3x 更远、解锁科技树快 15.3x
  • 对 OpenClaw 的启发:
    • 技能库模式是核心:OpenClaw 的技能系统天然对应 Voyager 的 Skill Library
    • 自动课程 → 可以在 cron 任务中设计自我探索任务
    • 迭代提示 + 环境反馈 → 技能执行失败时自动修复

3.4 Symbolic Learning Enables Self-Evolving Agents(Agents 2.0)

  • 论文: arXiv:2406.18532(2024)
  • 作者: Wangchunshu Zhou et al.(aiwaves-cn)
  • GitHub: aiwaves-cn/agents — ⭐ ~5.9k Stars
  • 核心机制:
    • 将 Agent 管道类比为神经网络的计算图
    • Agent 管道中的节点 ↔ 神经网络中的层
    • 节点的 Prompt 和工具 ↔ 层的权重
    • 实现了语言损失函数反向传播梯度下降的符号版本
    • 前向传播(Agent 执行)→ 语言损失评估 → 语言梯度反向传播 → 符号组件更新
  • 关键创新:
    • 不修改模型权重,而是用自然语言实现了类似梯度下降的优化过程
    • 支持多 Agent 系统的联合优化
  • 对 OpenClaw 的启发:
    • 这是目前最优美的理论框架
    • OpenClaw 的多 Agent 架构(main/waicode/wairesearch 等)可以映射为计算图
    • 每个 Agent 的 SOUL.md、Prompt 模板可以通过”语言梯度”自动优化

3.5 EvoAgentX: Building a Self-Evolving Ecosystem of AI Agents

  • 论文: arXiv:2507.03616(EMNLP 2025 Demo)
  • 调研论文: arXiv:2508.07407(Comprehensive Survey of Self-Evolving Agents)
  • GitHub: EvoAgentX/EvoAgentX — ⭐ ~1,000+ Stars(2025.07 达成)
  • 核心机制:
    1. 工作流自动构建: 从自然语言目标自动生成多 Agent 工作流
    2. 内置评估: 自动评估器按任务特定标准打分
    3. 自进化引擎: 使用自进化算法改进工作流
    4. 记忆模块: 短期 + 长期记忆系统
    5. 人在回路: 支持人类审核、修正、引导
  • 对 OpenClaw 的启发:
    • 工作流自动构建 → OpenClaw 可以根据用户需求自动编排 Agent 协作
    • 评估 + 进化引擎 → 可以评估每个 Agent 的 SOUL.md 效果并自动优化

3.6 其他重要工作

项目/论文 年份 核心贡献 链接
Promptbreeder 2023 (ICML’24) 自我指涉的 Prompt 进化 arXiv:2309.16797
TextGrad 2024 自然语言”自动微分” arXiv:2406.07496, GitHub
OPRO (LLMs as Optimizers) 2024 (ICLR’24) LLM 自身作为优化器 arXiv:2309.03409, GitHub
Agent Q 2024 自主 Agent 的高级推理和学习 arXiv:2408.07199
Absolute Zero 2025 零数据的自我强化推理 arXiv:2505.03335
R-Zero 2025 零数据自进化推理 LLM arXiv:2508.05004, GitHub
GEPA 2025 反思式 Prompt 进化,效果超过 RL arXiv:2507.19457
DSPy 2024 (EMNLP’24) 优化多阶段 LLM 程序的指令和示例 GitHub

4. OpenClaw 架构适配分析

4.1 OpenClaw 当前架构

OpenClaw 架构
├──  Agent 协调
   ├── main协调者
   ├── wairesearch研究
   ├── waicode开发
   ├── bizstrategy商业
   ├── product产品
   └── growth增长
├── 技能系统Skills
   ├── ~/.openclaw/skills/ 目录
   ├── SKILL.md 标准格式
   ├── 渐进式加载
   └── 技能分类和路由
├── 记忆系统Memory
   ├── MEMORY.md持久化记忆
   ├── USER.md用户档案
   ├── lossless-claw会话压缩/检索
   └── memory-wiki知识库
├── Context 文件
   ├── SOUL.md角色人格
   ├── AGENTS.mdAgent 配置
   ├── IDENTITY.md身份定义
   └── TOOLS.md工具配置
├── Cron 任务
   └── 定时自动化
└── 消息网关
    └── Telegram / 其他平台

4.2 自我进化维度与实现层次分析

进化维度 难度 实现层 是否需要底层改动 说明
技能自动创建/优化 🟢 低 技能层 ❌ 不需要 类似 Hermes 的 skill_manage,OpenClaw 已有技能系统
Prompt 自我优化 🟡 中 配置层 ❌ 不需要 修改 SOUL.md / Prompt 模板,可在技能层实现
记忆自我整理 🟡 中 记忆层 ⚠️ 可能需要 lossless-claw 已有压缩,可增加主动整理
工作流自动优化 🟡 中 协调层 ⚠️ 可能需要 需要在 main Agent 层面增加工作流评估
错误自修复 🟢 低 技能层 ❌ 不需要 Reflexion 模式:失败→反思→重试
性能自评估 🟡 中 新增层 ⚠️ 需要 需要评估框架和度量标准

4.3 OpenClaw vs Hermes Agent 能力对比

能力 Hermes Agent OpenClaw 当前 差距
技能系统 ✅ agentskills.io 标准 ✅ 类似的 SKILL.md 🟢 小(格式兼容)
自动创建技能 ✅ 每 15 步自动评估 ❌ 仅手动创建 🔴 大
技能自我改进 ✅ patch 模式 ❌ 无 🔴 大
持久化记忆 ✅ MEMORY.md + USER.md ✅ MEMORY.md + USER.md 🟢 已对齐
记忆 nudge ✅ 主动提醒持久化 ❌ 无 🟡 中
多 Agent 协调 ✅ 子 Agent 模式 ✅ 多 Agent 团队 🟢 OpenClaw 更强
用户建模 ✅ Honcho 方言建模 ✅ USER.md 🟡 中
RL 数据生成 ✅ Atropos 集成 ❌ 无 🔴 大(非优先)
跨会话搜索 ✅ FTS5 + LLM 摘要 ✅ lossless-claw 🟢 已对齐
Cron 自动化 ✅ 内置 ✅ 内置 🟢 已对齐

4.4 OpenClaw 独有优势

  1. 多 Agent 团队架构: OpenClaw 有成熟的专家 Agent 团队(研究/开发/商业/产品/增长),Hermes 目前主要是单 Agent + 子 Agent 模式
  2. 角色系统: SOUL.md 提供了丰富的人格和行为规范,为 Prompt 进化提供了天然的优化目标
  3. 记忆系统: lossless-claw 的会话压缩和跨会话检索已经很成熟
  4. 工作流编排: 协调者-专家模式天然适合工作流优化

5. 落地方案建议

5.1 分阶段实施路径

Phase MVP(2-4 周): 自我评估 + 技能自动创建

目标: 让 OpenClaw 能自动从经验中创建和改进技能

实现方案:

1. 自我评估检查点仿 Hermes  15-step checkpoint
     Agent 执行每 N 次工具调用后插入评估 Prompt
    评估 Prompt: "过去 N 步中,你做了什么?什么有效?什么值得记为技能?"
    实现方式:  main Agent 的系统 Prompt 中添加自评估规则

2. skill_manage 工具
    创建 skill_manage(action, name, content, old_text, new_text) 工具
    action: create / patch / delete / list
    技能自动保存到 ~/.openclaw/skills/auto-generated/
    实现方式: 新建一个技能meta-skill), Agent 如何创建技能

3. 记忆 nudge 机制
    在自评估检查点中同时检查是否有值得持久化的信息
    提示 Agent 主动更新 MEMORY.md

技术选型:

  • 无需底层改动,全部通过新技能 + Prompt 工程实现
  • 创建 self-evolution 技能目录,包含自评估和技能管理的 SKILL.md

预计产出:

  • 使用 20+ 复杂任务后,自动积累 5-15 个技能
  • 重复任务的效率提升 30-50%(参考 Hermes 用户数据)

Phase V1(1-2 月): Prompt 进化 + 工作流优化

目标: Agent 能自动优化自己的 SOUL.md 和工作流

实现方案:

1. Prompt 自我优化
    参考 GEPAReflective Prompt Evolution OPRO
    每周/每月通过 cron 任务触发 Prompt 优化评估
    分析最近 N 次任务的成功率和效率
    生成 SOUL.md 的优化建议需人工确认后生效
    实现方式: 新建 prompt-evolution 技能

2. 工作流评估与优化
    记录多 Agent 协作的任务轨迹
    分析哪些 Agent 协作模式效果好/
    自动建议工作流调整某类任务应直接分配给 waicode 而非先经过 wairesearch
    实现方式:  main Agent 中增加工作流评估逻辑

3. 错误模式学习
    记录任务失败的原因和修复方式
    类似 Reflexion 的反思机制
    失败反思记忆下次避免
    实现方式: 增加 error-reflection 技能

技术选型:

  • GEPA(arXiv:2507.19457)的 Reflective Prompt Evolution 方法,效果已被证明超过 RL
  • DSPy 的多阶段优化思想
  • 可能需要小幅修改 Agent 配置加载逻辑(支持 A/B 测试不同 SOUL.md)

Phase V2(3-6 月): 符号学习 + 自进化生态

目标: 建立完整的自进化生态系统

实现方案:

1. 符号学习框架
    参考 aiwaves-cn/agents  Symbolic Learning
    将多 Agent 管道建模为计算图
    实现"语言梯度"的反向传播
    自动优化每个 Agent  Prompt工具选择协作模式

2. 技能市场
    参考 Hermes  agentskills.io 和技能分享机制
    用户间共享经过验证的技能
    技能评分和推荐系统

3. 自进化 Dashboard
    可视化展示进化过程
    技能创建/使用频率统计
    Prompt 优化历史
    工作流效率趋势

4. RL 数据生成可选
    类似 Hermes  Atropos 集成
    从用户交互中生成高质量训练数据
    用于微调自有模型或贡献给社区

技术选型:

  • aiwaves-cn/agents 2.0 的 Symbolic Learning 框架
  • TextGrad(arXiv:2406.07496)的”文本自动微分”思想
  • EvoAgentX 的工作流自动构建 + 评估方法

5.2 MVP 具体实现方案

方案 A: Pure Prompt Engineering(推荐)

完全通过技能和 Prompt 实现,零代码改动:

# 创建技能: ~/.openclaw/skills/self-evolution/SKILL.md

## 自评估规则
在完成复杂任务后(使用了 10+ 次工具调用),执行以下自评估:

1. 回顾本次任务的执行过程
2. 识别可复用的工作流模式
3. 如果发现值得保留的模式:
   - 在 ~/.openclaw/skills/auto/ 目录创建新技能
   - 或更新已有技能
4. 将关键发现写入 MEMORY.md

优点:

  • 开发成本极低(1-2 天)
  • 不需要底层改动
  • 立即可用

缺点:

  • 依赖 LLM 自觉性,可能不稳定
  • 无法精确控制触发时机

方案 B: 轻量级工具扩展

增加 skill_manageself_evaluate 工具:

// skill_manage 工具
interface SkillManageParams {
  action: 'create' | 'patch' | 'delete' | 'list';
  name: string;
  content?: string;
  old_text?: string;
  new_text?: string;
}

// self_evaluate 工具(在 N 步后自动调用)
interface SelfEvaluateParams {
  recent_actions: string[];  // 最近 N 步的动作摘要
  task_outcome: 'success' | 'partial' | 'failure';
}

优点:

  • 更精确的控制
  • 可以记录评估数据用于后续分析
  • 更好的用户体验

缺点:

  • 需要少量开发工作(3-5 天)
  • 需要修改 OpenClaw 的工具注册机制

推荐: 方案 A 快速验证 → 方案 B 正式实现

5.3 技术选型建议

组件 推荐方案 备选方案 理由
技能管理 skill_manage 工具 纯 Prompt 工具方式更可控
Prompt 优化 GEPA 方法 DSPy / TextGrad GEPA 已证明超过 RL,且实现简单
工作流评估 自定义评估 Prompt EvoAgentX 集成 初期自定义更灵活
记忆整理 定期 cron 任务 实时整理 避免影响实时性能
错误学习 Reflexion 模式 Self-Refine Reflexion 的记忆机制更适合跨会话

6. 对比总表

6.1 自我进化框架对比

维度 Hermes Agent Voyager Agents 2.0 (Symbolic) EvoAgentX Reflexion Self-Refine
进化层次 行为/程序化 技能库 符号/Prompt 工作流 记忆/反思 单次迭代
跨会话
多Agent 部分
人在回路
实用性 ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐
实现复杂度
OpenClaw 适配 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐

6.2 GitHub 项目数据

项目 Stars 语言 最近更新 许可证 备注
MineDojo/Voyager ~5.7k Python 2024 MIT NVIDIA,里程碑式工作
aiwaves-cn/agents ~5.9k Python 2024.09 Apache 2.0 符号学习框架
noahshinn/reflexion ~2.3k Python 2024 MIT NeurIPS 2023
madaan/self-refine ~1.5k Python 2024 MIT NeurIPS 2023
EvoAgentX/EvoAgentX ~1k+ Python 2025.07 Apache 2.0 最新自进化框架
NousResearch/hermes-agent 未公开确切数 Python 2026.04 MIT Nous Research 官方
zou-group/textgrad 未公开确切数 Python 2024 MIT 文本自动微分
stanfordnlp/dspy ~18k+ Python 2025 MIT LLM 程序优化

注:Stars 数据为 2026 年 4 月估计值,实际数据可能有波动


7. 风险与限制

7.1 技术风险

风险 严重度 缓解措施
技能质量退化 — 自动创建的技能可能包含错误模式 🔴 高 技能创建后需人工审核机制,或设置”试用期”
Prompt 优化过拟合 — 针对特定任务优化导致通用性下降 🟡 中 保留原始 Prompt 版本,支持回滚
记忆膨胀 — 自动积累的记忆导致 context 窗口压力 🟡 中 定期记忆整理 cron 任务,设置记忆容量上限
幻觉传播 — 错误信息被固化为技能/记忆 🔴 高 关键技能需要验证步骤,添加”置信度”标签
安全风险 — 自我修改可能引入安全漏洞 🟡 中 技能沙箱、权限分级、人在回路审批

7.2 实施风险

风险 说明 缓解措施
开发资源 MVP 需要 2-4 周,V1 需要 1-2 月 渐进式实施,先 Prompt 方案快速验证
用户体验 自动创建技能可能干扰正常流程 默认关闭,用户 opt-in
评估困难 如何量化”自我进化”效果 设计明确的度量指标(任务完成时间、工具调用次数、成功率)

7.3 已知限制

  1. LLM 底座不变: 所有”进化”都是在 Agent 行为层面,底层 LLM 的能力上限不变
  2. 领域特定: 自我进化只在用户实际使用的领域有效,不会泛化到未接触领域
  3. 冷启动: 新用户/新领域需要经历学习期(20-30 个任务)
  4. Token 成本: 自评估检查点会增加 token 消耗(估计增加 10-15%)

8. 参考来源

论文

  1. Hermes 3 Technical Report — Ryan Teknium et al., 2024. arXiv:2408.11857
  2. Reflexion: Language Agents with Verbal Reinforcement Learning — Noah Shinn et al., NeurIPS 2023. arXiv:2303.11366
  3. Self-Refine: Iterative Refinement with Self-Feedback — Aman Madaan et al., NeurIPS 2023. arXiv:2303.17651
  4. Voyager: An Open-Ended Embodied Agent with Large Language Models — Guanzhi Wang et al., NeurIPS 2023. arXiv:2305.16291
  5. Symbolic Learning Enables Self-Evolving Agents — Wangchunshu Zhou et al., 2024. arXiv:2406.18532
  6. EvoAgentX: An Automated Framework for Evolving Agentic Workflows — Yingxu Wang et al., EMNLP 2025. arXiv:2507.03616
  7. A Survey of Self-Evolving Agents: On Path to ASI — Huan-ang Gao et al., 2025. arXiv:2507.21046
  8. A Comprehensive Survey of Self-Evolving AI Agents — EvoAgentX Team, 2025. arXiv:2508.07407
  9. Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution — ICML 2024. arXiv:2309.16797
  10. TextGrad: Automatic “Differentiation” via Text — 2024. arXiv:2406.07496
  11. Large Language Models as Optimizers (OPRO) — ICLR 2024. arXiv:2309.03409
  12. GEPA: Reflective Prompt Evolution Can Outperform RL — 2025. arXiv:2507.19457

GitHub 项目

  1. NousResearch/hermes-agent — Hermes Agent 框架
  2. NousResearch/Hermes-Function-Calling — Hermes Function Calling
  3. MineDojo/Voyager — Voyager Agent
  4. aiwaves-cn/agents — Agents 2.0 (Symbolic Learning)
  5. EvoAgentX/EvoAgentX — EvoAgentX 框架
  6. EvoAgentX/Awesome-Self-Evolving-Agents — 自进化 Agent 综合列表
  7. CharlesQ9/Self-Evolving-Agents — 自进化 Agent 调研
  8. noahshinn/reflexion — Reflexion
  9. madaan/self-refine — Self-Refine
  10. stanfordnlp/dspy — DSPy 框架
  11. zou-group/textgrad — TextGrad

官方文档

  1. Hermes Agent Documentation
  2. Hermes Agent Skills System
  3. Self-Improving AI — The Hermes Feature That Actually Works
  4. Nous Research - Hermes 3
  5. agentskills.io Standard

研究完成时间: 2026-04-25 23:30 CST 研究员: 黄山 (wairesearch) 下一步建议: 将本报告转交 waicode 进行 MVP 原型开发

📖 相似文章推荐

上一篇
Tool Call Stuck 解决方案 v2:先看源码再提方案
下一篇
Claude Code 完全指南:打造最强 AI 编程环境的实战手册