改进Skill-Creator:测试、衡量和优化Agent Skills
Skill-creator现在可以帮助你编写评估、运行基准测试,并确保你的技能在模型演进过程中持续有效。这些更新现已在Claude.ai和Cowork中可用,作为Claude Code插件,也可在我们的代码库中获取。
自去年10月推出Agent Skills以来,我们注意到大多数技能作者都是主题专家,而非工程师。他们熟悉自己的工作流程,但缺乏工具来判断技能在新模型上是否仍然有效、是否在应该触发时触发,或者编辑后是否真的有所改进。
今天,我们宣布skill-creator的增强功能,帮助作者更有信心地构建技能。我们将软件开发的一些严谨性(测试、基准测试、迭代改进)引入技能创作,而无需编写代码。
两种类型的技能
技能通常分为两类:
能力提升技能帮助Claude完成基础模型无法完成或无法持续完成的任务。我们的文档创建技能就是很好的例子。它们编码了比单独提示更能产生更好输出的技术和模式。
编码偏好技能记录了Claude已经可以完成每个部分的工作流程,但技能会根据你的团队流程对其进行排序。例如:根据设定标准审查NDA的技能,或利用各种MCP的数据起草每周更新的技能。
这种区分很重要,因为这两种类型的技能可能需要出于不同的原因进行测试:
- 随着模型的改进,能力提升技能可能变得不那么必要。评估会告诉你何时发生这种情况。
- 编码偏好技能更持久,但只有在忠实于实际工作流程时才有价值。评估验证这种忠实度。
无论哪种方式,测试都能将看似有效的技能转变为你确信有效的技能。
使用评估来测试和改进技能
Skill-creator现在可以帮助你编写评估,即检查Claude在给定提示下是否按预期执行的测试。如果你编写过软件测试,这会很熟悉:定义一些测试提示(如果需要,加上文件),描述良好输出的样子,skill-creator会告诉你技能是否达标。
例如,我们的PDF技能以前在处理非可填写表单时遇到困难。Claude必须在没有定义字段引导的情况下将文本放置在精确坐标处。评估找出了失败点,我们发布了一个修复方案,将定位锚定到提取的文本坐标。
评估在很多方面都有帮助,但两个重要用途是发现质量退化和了解模型进展。
首先,发现质量退化。随着模型和周围基础设施的演进,上个月运行良好的技能今天可能表现不同。在新模型上运行评估可以在影响团队工作之前提前发出变化信号。
其次,了解通用模型能力何时超越你的技能。这主要适用于能力提升技能。如果基础模型在不加载技能的情况下开始通过你的评估,这表明技能的技术可能已被纳入模型的默认行为。技能没有损坏,只是不再必要。
我们还添加了基准测试模式,使用你的评估运行标准化评估。你可以在模型更新后或迭代技能本身时运行此模式。它跟踪评估通过率、耗时和令牌使用情况。
你的评估和结果会保留在你身边。你可以本地存储,与仪表板集成,或插入CI系统。
多代理支持实现更快、更一致的评估
顺序运行评估可能很慢,而且上下文积累可能会在测试运行之间产生干扰。Skill-creator现在支持多代理并行运行评估,每个代理都在干净的上下文中,有自己的令牌和时间指标。结果更快,没有交叉污染。
我们还添加了比较代理用于A/B比较:两个技能版本,或技能与无技能的比较。它们在不知道哪个是哪个的情况下判断输出,因此你可以知道更改是否真的有帮助。
确保技能在正确的时间触发
评估衡量输出质量,但只有在技能在应该触发时触发才有意义。随着技能数量的增长,描述的精确性变得至关重要:太宽泛会导致误触发,太狭窄则永远不会触发。Skill-creator现在可以帮助你调整描述以实现更可靠的触发——它会分析你当前的描述与示例提示,并建议编辑以减少误报和漏报。
我们在文档创建技能上运行了此功能,发现6个公共技能中有5个的触发效果得到了改善。
展望未来
随着模型的改进,”技能”和”规范”之间的界限可能会模糊。今天,SKILL.md文件本质上是一个实施计划,提供了告诉Claude如何做事的详细说明。随着时间的推移,对技能应该做什么的自然语言描述可能就足够了,模型会自行解决其余问题。
我们今天发布的评估框架是朝着这个方向迈出的一步。评估已经描述了”做什么”。最终,这个描述本身可能就是技能。
开始使用
所有skill-creator更新现已在Claude.ai和Cowork中可用。让Claude使用skill-creator开始吧。