改进Skill-Creator：测试、衡量和优化Agent Skills

Skill-creator现在可以帮助你编写评估、运行基准测试，并确保你的技能在模型演进过程中持续有效。这些更新现已在Claude.ai和Cowork中可用，作为Claude Code插件，也可在我们的代码库中获取。

自去年10月推出Agent Skills以来，我们注意到大多数技能作者都是主题专家，而非工程师。他们熟悉自己的工作流程，但缺乏工具来判断技能在新模型上是否仍然有效、是否在应该触发时触发，或者编辑后是否真的有所改进。

今天，我们宣布skill-creator的增强功能，帮助作者更有信心地构建技能。我们将软件开发的一些严谨性（测试、基准测试、迭代改进）引入技能创作，而无需编写代码。

两种类型的技能

技能通常分为两类：

能力提升技能帮助Claude完成基础模型无法完成或无法持续完成的任务。我们的文档创建技能就是很好的例子。它们编码了比单独提示更能产生更好输出的技术和模式。

编码偏好技能记录了Claude已经可以完成每个部分的工作流程，但技能会根据你的团队流程对其进行排序。例如：根据设定标准审查NDA的技能，或利用各种MCP的数据起草每周更新的技能。

这种区分很重要，因为这两种类型的技能可能需要出于不同的原因进行测试：

无论哪种方式，测试都能将看似有效的技能转变为你确信有效的技能。

Skill-creator现在可以帮助你编写评估，即检查Claude在给定提示下是否按预期执行的测试。如果你编写过软件测试，这会很熟悉：定义一些测试提示（如果需要，加上文件），描述良好输出的样子，skill-creator会告诉你技能是否达标。

例如，我们的PDF技能以前在处理非可填写表单时遇到困难。Claude必须在没有定义字段引导的情况下将文本放置在精确坐标处。评估找出了失败点，我们发布了一个修复方案，将定位锚定到提取的文本坐标。

评估在很多方面都有帮助，但两个重要用途是发现质量退化和了解模型进展。

首先，发现质量退化。随着模型和周围基础设施的演进，上个月运行良好的技能今天可能表现不同。在新模型上运行评估可以在影响团队工作之前提前发出变化信号。

其次，了解通用模型能力何时超越你的技能。这主要适用于能力提升技能。如果基础模型在不加载技能的情况下开始通过你的评估，这表明技能的技术可能已被纳入模型的默认行为。技能没有损坏，只是不再必要。

我们还添加了基准测试模式，使用你的评估运行标准化评估。你可以在模型更新后或迭代技能本身时运行此模式。它跟踪评估通过率、耗时和令牌使用情况。

你的评估和结果会保留在你身边。你可以本地存储，与仪表板集成，或插入CI系统。

顺序运行评估可能很慢，而且上下文积累可能会在测试运行之间产生干扰。Skill-creator现在支持多代理并行运行评估，每个代理都在干净的上下文中，有自己的令牌和时间指标。结果更快，没有交叉污染。

我们还添加了比较代理用于A/B比较：两个技能版本，或技能与无技能的比较。它们在不知道哪个是哪个的情况下判断输出，因此你可以知道更改是否真的有帮助。

评估衡量输出质量，但只有在技能在应该触发时触发才有意义。随着技能数量的增长，描述的精确性变得至关重要：太宽泛会导致误触发，太狭窄则永远不会触发。Skill-creator现在可以帮助你调整描述以实现更可靠的触发——它会分析你当前的描述与示例提示，并建议编辑以减少误报和漏报。

我们在文档创建技能上运行了此功能，发现6个公共技能中有5个的触发效果得到了改善。

随着模型的改进，”技能”和”规范”之间的界限可能会模糊。今天，SKILL.md文件本质上是一个实施计划，提供了告诉Claude如何做事的详细说明。随着时间的推移，对技能应该做什么的自然语言描述可能就足够了，模型会自行解决其余问题。

我们今天发布的评估框架是朝着这个方向迈出的一步。评估已经描述了”做什么”。最终，这个描述本身可能就是技能。

所有skill-creator更新现已在Claude.ai和Cowork中可用。让Claude使用skill-creator开始吧。

Claude Code用户可以安装插件或从我们的代码库下载。