Skip to main content

Claude Skills 完整指南 2026:创建、测试、优化全流程

10 min read
Claude Skills 完整指南 2026:创建、测试、优化全流程

Claude Skills 解决一个具体问题:Claude 能力强但不稳定,可以写任何风格、走任何流程,但记不住你的偏好。Skills 就是可复用的指令集,告诉 Claude 该怎么做。Skills 2.0 补上了之前最缺的一环:怎么知道你的技能是否真的有效。本文覆盖如何为 Claude.ai 和 Claude Code 创建、测试、优化技能。

什么是 Claude Skills

Skills 是包含 SKILL.md 和可选资源(模板、示例、脚本)的文件夹。SKILL.md 有两部分:

Frontmatter:告诉 Claude 什么时候用:

---
name: code-review
description: 检查代码安全漏洞、性能问题、可维护性。当被要求 review 代码或检查 bug 时使用。
---

Instructions:告诉 Claude 怎么做:

# 代码 Review 技能

## 流程
1. 检查安全漏洞(OWASP Top 10)
2. 找性能瓶颈
3. 评估可读性和可维护性
4. 给出具体改进建议

## 输出格式
- 总结(1-2 句)
- 严重问题(必须改)
- 建议(应该改)

匹配描述时 Claude 自动加载技能并按指令执行。结果:稳定可复现的输出。

两种技能类型

能力增强型:教 Claude 它不会的事,比如你公司的 code review 清单、合规要求。

偏好编码型:让 Claude 按你的方式做它本来就会的事,比如统一博客的结构和语调。

区分很重要:能力增强型应该客观上比裸 Claude 强;偏好编码型可能客观指标差不多,但符合你的偏好。

Skills 2.0 新增四大能力

Anthropic Skills 2.0 更新 把"希望它能用"变成"证明它能用":

能力 作用
Evals 跑测试用例,报告通过率
A/B 基准 盲测对比技能和裸 Claude
触发调优 优化技能何时激活
多 Agent 并行测试 并行跑 eval,更快更可靠

Anthropic 自己 6 个技能里发现 5 个有问题,你的技能大概率也有。

创建技能

方法 1:用 Skill Creator(推荐)

在 Claude Code 或 Claude.ai 里说:

为 [描述你要做的事] 创建一个 skill

它会问清楚你的工作流、生成文件夹、格式化 SKILL.md、打包资源。

方法 2:手动创建

my-skill/
├── SKILL.md          # 必需:frontmatter + 指令
├── template.md       # 可选:输出模板
├── examples/         # 可选:输入输出示例
└── scripts/          # 可选:辅助脚本

安装

Claude Code:放在项目的 .claude/skills/(项目专用)或 ~/.claude/skills/(全局)。

Claude.ai:设置 → 功能 → 上传 ZIP。Pro、Max、Team、Enterprise 套餐可用。

现成技能Anthropic 官方仓库awesome-claude-skills 社区集合。

跑 Eval

Eval 是 Skills 2.0 最重要的功能。

第一步:写 5-10 个测试用例

1. "review 这段 Python,检查安全问题" + [带 SQL 注入的代码]
   预期:识别 SQL 注入
2. "review 这个 API 端点" + [缺鉴权的代码]
   预期:标记缺失鉴权
3. "review 这个 React 组件" + [干净代码]
   预期:无严重问题

第二步:跑 eval

在 Claude Code:

为我的 code-review 技能跑 eval

报告:通过率(8/10)、具体失败、响应时间、token 用量。

第三步:修复失败

为每个失败用例:加更具体的指令、补示例、澄清模糊语言。

第四步:重跑

迭代到达标。关键技能 90%+,偏好技能 70-80% 可接受。

A/B 基准测试

技能比裸 Claude 强吗?模型升级后曾经有用的技能可能变冗余。

为 code-review 技能做 A/B 基准测试

系统盲测对比,报胜率:

  • 70%+:技能明显有用,保留
  • 50-70%:边际改进,可能要细化
  • <50%:技能在拖后腿,删掉或重写

每次重大模型更新后、技能大改后、季度维护时都要重跑。

触发优化

技能不在该用时激活就白搭。

常见问题

太宽泛:"帮助编程任务"会在每个编程请求都触发。

太狭窄:"review Python FastAPI 的 OWASP 漏洞"对一般 review 请求不触发。

模糊重叠:两个技能描述相似,Claude 随机选一个或都不用。

修复方法

  1. 明确何时用:"当用户要求 review 代码安全问题、检查漏洞、审计安全时使用。"
  2. 明确何时不用:"不用于一般代码质量 review、性能优化、重构建议。"
  3. 用边界 prompt 测
为 code-review 技能测触发:
- "review 这段代码" → 应触发
- "重构这个函数" → 不应触发
- "这代码安全吗" → 应触发

最佳实践

小处入手:第一个技能做一件具体事,不是整个工作流。

带示例examples/ 里有输入输出示例的技能比纯指令的好用。

用 Git 管理:技能放仓库,回滚时方便。

模型更新后维护:每次大更新跑 A/B 基准。

分享有用的:技能就是文件夹,社区会感激你。

团队技能架构

  • 个人技能~/.claude/skills/):个人偏好
  • 项目技能.claude/skills/):仓库共享,提交到 Git
  • 组织技能:通过 Claude.ai 团队设置分发

分层使用:组织设基线,项目加代码库细节,个人处理工作流偏好。

中文开发者补充

国内访问 Claude.ai 需要稳定的国际网络。如果你用阿里云 Coding Plan 走 OpenClaw,可以参考 OpenClaw 完全安装指南 2026OpenClaw 最佳 Skills 推荐,里面有中文场景下经过验证的技能模板。

掘金 juejin.cn 和 V2EX 上已经有不少中文开发者分享他们的 Skills 经验,从博客写作到代码 review 都有现成模板可改。

相关阅读