SkillsBench论文研究报告

论文：SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
arXiv：2602.12670v1
发布时间：2026年3月7日

摘要

本文对SkillsBench论文进行深度分析。该论文首次系统性评估了Agent Skills的有效性，构建了涵盖84个任务、11个领域的基准测试，通过7,308条轨迹的实验发现：精心策划的Skills平均提升任务通过率16.2个百分点，但效果因领域差异巨大；模型自生成的Skills几乎没有收益，揭示了「消费者≠生产者」的困境。本报告深入分析其方法论、核心发现与行业启示。

一、研究背景与动机

1.1 问题陈述

大语言模型（LLM）已从文本生成器演变为能够执行复杂多步骤任务的自主代理。然而存在一个根本性矛盾：

挑战	描述
能力广度	基础模型提供广泛能力
知识缺失	缺乏领域特定工作流的程序性知识
微调代价	微调成本高且牺牲通用性

1.2 Agent Skills的兴起

Skill定义：一种结构化包，包含指令、代码模板、资源和验证逻辑，在推理时增强Agent行为，无需修改模型。

类比架构：

┌─────────────────────────────────────┐
│           Applications              │ ← Skills
├─────────────────────────────────────┤
│         Operating System            │ ← Agent Harness
├─────────────────────────────────────┤
│              CPU                    │ ← Foundation Model
└─────────────────────────────────────┘

1.3 研究空白

现有Agent基准测试（如Terminal-Bench、SWE-bench）评估的是原始模型能力，回答的是：

「这个模型能多好地执行任务X？」

但无法回答：

「Skills Y能在多大程度上提升任务X的表现？」

SkillsBench填补这一空白。

二、方法论

2.1 Skill定义与规范

一个有效的Skill必须满足四个标准：

标准	描述	排除项
程序性内容	包含操作指南、工作流、SOP	非事实检索
任务类适用性	适用于一类问题而非单一实例	—
结构化组件	包含SKILL.md + 可选资源	非系统提示
可移植性	基于文件系统，易于编辑、版本、共享	非工具文档

Skill结构：

environment/skills/
├── SKILL.md          # 自然语言指令（工作流、SOP、领域约定）
└── resources/        # 可执行脚本、代码模板、参考文档、示例

2.2 任务规范

每个任务包含四个组件：

组件	描述
Instruction	人类可读的任务描述，指定目标、输入格式、预期输出
Environment	Docker容器，包含任务数据和Skills子目录
Solution	参考实现，验证任务可解性
Verifier	确定性测试脚本，程序化断言

2.3 数据集构建

统计	数值
贡献者	105人（学界+业界）
候选任务	322个
最终任务	84个
领域数量	11个
Skills来源	47,150个（去重后）

领域分布：

软件工程、数据分析、企业工作流
医疗、法律、金融
其他专业领域

难度分层（基于专家人工完成时间）：

简单：< 30分钟
中等：30分钟 - 2小时
困难：> 2小时

2.4 质量保证

自动化验证

结构验证：必需文件存在、目录布局正确
Oracle执行：参考方案必须100%通过测试
指令质量：人工撰写（GPTZero检测）

人工审查（五项标准）

数据有效性：反映真实世界复杂性
任务现实性：真实专业工作流
Oracle质量：匹配领域专家解法
Skill质量：无错误、一致性、有用性
防作弊：阻止捷径解决方案

泄漏预防

Skills禁止包含：

任务特定文件名、路径、标识符
解决基准测试任务的确切命令序列
任务规范中的常量、魔法数字
对特定测试用例或预期输出的引用

2.5 实验设计

三种评估条件

条件	描述
No Skills	Agent仅接收instruction.md，无Skills
With Skills	完整environment/skills/目录
Self-Generated Skills	无Skills，Agent在解题前生成相关知识

Agent Harness

工具	提供商	支持模型
Claude Code	Anthropic	Claude Opus 4.5/4.6, Sonnet 4.5, Haiku 4.5
Gemini CLI	Google	Gemini 3 Pro/Flash
Codex CLI	OpenAI	GPT-5.2

模型配置

7个前沿模型
温度设为0（确定性采样）
共计7种模型-harness组合

轨迹统计

总轨迹数：7,308条
每任务每条件：5次试验
评估指标：通过率（Pass Rate）

三、核心发现

3.1 主要结果

发现	数据
Curated Skills平均提升	+16.2个百分点
Self-Generated Skills效果	几乎为零或负面
负面效果任务	16/84 (19%)
领域差异范围	+4.5pp ~ +51.9pp

3.2 领域差异分析

领域	Skills提升	分析
医疗（Healthcare）	+51.9pp	最大收益，领域知识高度专业化
软件工程	+4.5pp	最小收益，模型已有较强编码能力
数据分析	中等	—
企业工作流	中等	—

洞察：Skills收益与领域专业化程度正相关。模型在通用领域（如编程）已有较强能力，而在专业领域（如医疗）Skills提供的程序性知识价值更大。

3.3 Self-Generated Skills困境

核心发现：模型无法可靠地创作它们自己受益的程序性知识。

条件	平均效果
No Skills	基线
With Curated Skills	+16.2pp
With Self-Generated Skills	≈ 0

原因分析：

程序性知识需要领域专家经验积累
模型擅长消费知识，不擅长生产结构化工作流
自生成Skills可能引入错误或冗余信息

3.4 Skill设计原则发现

聚焦优于全面

Skill类型	效果
聚焦型（2-3模块）	更优
全面文档型	较差

原因：过多信息可能干扰Agent决策，聚焦的指导更有效。

小模型+Skills ≈ 大模型

配置	效果对比
小模型 + Skills	可匹敌
大模型 - Skills	基线

意义：Skills提供了性价比路径——用廉价模型+精心策划的Skills达到昂贵模型效果。

3.5 失败模式分析

16/84任务显示负面效果，可能原因：

Skill不匹配：提供的Skill与任务需求不精确匹配
信息过载：过多Skills干扰判断
误导性指导：Skill中的过时或错误信息
过度依赖：Agent过度依赖Skill而忽视任务特性

四、方法论亮点

4.1 创新点

创新点	描述
Skills作为一等公民	首个将Skills作为评估核心对象的基准
三条件对照	无Skills / 精选Skills / 自生成Skills
确定性验证	避免LLM-as-a-judge的方差问题
泄漏审计	确保Skills提供指导而非答案

4.2 生态规模

Skills数据来源：

来源	数量
开源仓库	12,847
Claude Code生态	28,412
企业伙伴	5,891
去重后总计	47,150

4.3 社区驱动

105位贡献者参与任务设计
322个候选任务经过严格筛选
84个任务最终入选（26%通过率）

五、行业启示

5.1 对Agent开发者

启示	行动建议
Skills有效但不一致	需针对具体领域测试Skills效果
自生成不可靠	优先使用专家策划的Skills
聚焦设计	保持Skill简洁，2-3模块最佳

5.2 对Skills作者

启示	行动建议
程序性知识是核心	聚焦工作流、SOP、领域约定
避免任务特定	确保Skill适用于一类任务
质量优先	错误的Skill比没有Skill更糟

5.3 对企业用户

启示	行动建议
ROI可衡量	SkillsBench提供量化评估框架
性价比路径	小模型+Skills可替代大模型
领域差异大	需针对业务领域进行评估

5.4 对研究方向

开放问题	描述
Skills自动生成	如何让模型可靠创作程序性知识？
跨领域迁移	Skills的泛化能力如何？
动态Skills	如何根据任务自动选择/组合Skills？
Skills演化	如何维护和更新Skills？

六、局限性与未来工作

6.1 当前局限

局限	描述
领域覆盖	11个领域可能不足以覆盖所有应用场景
模型范围	仅测试7个前沿模型
Harness类型	仅CLI类Agent，未覆盖Web Agent等
Skills来源	主要英语为主，多语言Skills待研究

6.2 未来方向

扩展领域：增加更多垂直领域任务
跨模态Skills：多模态Agent的Skills研究
自适应Skills：基于任务动态生成/选择Skills
Skills质量评估：建立Skills质量评分体系

七、结论

SkillsBench是Agent Skills评估领域的里程碑工作，首次提供了系统性证据：

Skills有效但不一致：平均+16.2pp，但领域差异巨大（+4.5pp ~ +51.9pp）
消费者≠生产者：模型无法可靠创作它们自己受益的程序性知识
设计原则：聚焦型Skills优于全面文档，小模型+Skills可匹敌大模型
失败存在：19%任务显示负面效果，需谨慎设计Skills

这项工作为Agent生态系统提供了重要的评估框架和设计指南，对Skills生态的健康发展具有深远意义。

参考文献

Li, X., Chen, W., et al. (2026). SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks. arXiv:2602.12670.
Anthropic. (2025). Claude Code.
OpenAI. (2025). Codex CLI.
Google. (2025). Gemini CLI.
Merrill, et al. (2026). Terminal-Bench.