Claude Skills 完整指南 2026:创建、测试、优化全流程
Claude Skills 解决一个具体问题:Claude 能力强但不稳定,可以写任何风格、走任何流程,但记不住你的偏好。Skills 就是可复用的指令集,告诉 Claude 该怎么做。Skills 2.0 补上了之前最缺的一环:怎么知道你的技能是否真的有效。本文覆盖如何为 Claude.ai 和 Claude Code 创建、测试、优化技能。
什么是 Claude Skills
Skills 是包含 SKILL.md 和可选资源(模板、示例、脚本)的文件夹。SKILL.md 有两部分:
Frontmatter:告诉 Claude 什么时候用:
---
name: code-review
description: 检查代码安全漏洞、性能问题、可维护性。当被要求 review 代码或检查 bug 时使用。
---
Instructions:告诉 Claude 怎么做:
# 代码 Review 技能
## 流程
1. 检查安全漏洞(OWASP Top 10)
2. 找性能瓶颈
3. 评估可读性和可维护性
4. 给出具体改进建议
## 输出格式
- 总结(1-2 句)
- 严重问题(必须改)
- 建议(应该改)
匹配描述时 Claude 自动加载技能并按指令执行。结果:稳定可复现的输出。
两种技能类型
能力增强型:教 Claude 它不会的事,比如你公司的 code review 清单、合规要求。
偏好编码型:让 Claude 按你的方式做它本来就会的事,比如统一博客的结构和语调。
区分很重要:能力增强型应该客观上比裸 Claude 强;偏好编码型可能客观指标差不多,但符合你的偏好。
Skills 2.0 新增四大能力
Anthropic Skills 2.0 更新 把"希望它能用"变成"证明它能用":
| 能力 | 作用 |
|---|---|
| Evals | 跑测试用例,报告通过率 |
| A/B 基准 | 盲测对比技能和裸 Claude |
| 触发调优 | 优化技能何时激活 |
| 多 Agent 并行测试 | 并行跑 eval,更快更可靠 |
Anthropic 自己 6 个技能里发现 5 个有问题,你的技能大概率也有。
创建技能
方法 1:用 Skill Creator(推荐)
在 Claude Code 或 Claude.ai 里说:
为 [描述你要做的事] 创建一个 skill
它会问清楚你的工作流、生成文件夹、格式化 SKILL.md、打包资源。
方法 2:手动创建
my-skill/
├── SKILL.md # 必需:frontmatter + 指令
├── template.md # 可选:输出模板
├── examples/ # 可选:输入输出示例
└── scripts/ # 可选:辅助脚本
安装
Claude Code:放在项目的 .claude/skills/(项目专用)或 ~/.claude/skills/(全局)。
Claude.ai:设置 → 功能 → 上传 ZIP。Pro、Max、Team、Enterprise 套餐可用。
现成技能:Anthropic 官方仓库 或 awesome-claude-skills 社区集合。
跑 Eval
Eval 是 Skills 2.0 最重要的功能。
第一步:写 5-10 个测试用例
1. "review 这段 Python,检查安全问题" + [带 SQL 注入的代码]
预期:识别 SQL 注入
2. "review 这个 API 端点" + [缺鉴权的代码]
预期:标记缺失鉴权
3. "review 这个 React 组件" + [干净代码]
预期:无严重问题
第二步:跑 eval
在 Claude Code:
为我的 code-review 技能跑 eval
报告:通过率(8/10)、具体失败、响应时间、token 用量。
第三步:修复失败
为每个失败用例:加更具体的指令、补示例、澄清模糊语言。
第四步:重跑
迭代到达标。关键技能 90%+,偏好技能 70-80% 可接受。
A/B 基准测试
技能比裸 Claude 强吗?模型升级后曾经有用的技能可能变冗余。
为 code-review 技能做 A/B 基准测试
系统盲测对比,报胜率:
- 70%+:技能明显有用,保留
- 50-70%:边际改进,可能要细化
- <50%:技能在拖后腿,删掉或重写
每次重大模型更新后、技能大改后、季度维护时都要重跑。
触发优化
技能不在该用时激活就白搭。
常见问题
太宽泛:"帮助编程任务"会在每个编程请求都触发。
太狭窄:"review Python FastAPI 的 OWASP 漏洞"对一般 review 请求不触发。
模糊重叠:两个技能描述相似,Claude 随机选一个或都不用。
修复方法
- 明确何时用:"当用户要求 review 代码安全问题、检查漏洞、审计安全时使用。"
- 明确何时不用:"不用于一般代码质量 review、性能优化、重构建议。"
- 用边界 prompt 测:
为 code-review 技能测触发:
- "review 这段代码" → 应触发
- "重构这个函数" → 不应触发
- "这代码安全吗" → 应触发
最佳实践
小处入手:第一个技能做一件具体事,不是整个工作流。
带示例:examples/ 里有输入输出示例的技能比纯指令的好用。
用 Git 管理:技能放仓库,回滚时方便。
模型更新后维护:每次大更新跑 A/B 基准。
分享有用的:技能就是文件夹,社区会感激你。
团队技能架构
- 个人技能(
~/.claude/skills/):个人偏好 - 项目技能(
.claude/skills/):仓库共享,提交到 Git - 组织技能:通过 Claude.ai 团队设置分发
分层使用:组织设基线,项目加代码库细节,个人处理工作流偏好。
中文开发者补充
国内访问 Claude.ai 需要稳定的国际网络。如果你用阿里云 Coding Plan 走 OpenClaw,可以参考 OpenClaw 完全安装指南 2026 和 OpenClaw 最佳 Skills 推荐,里面有中文场景下经过验证的技能模板。
掘金 juejin.cn 和 V2EX 上已经有不少中文开发者分享他们的 Skills 经验,从博客写作到代码 review 都有现成模板可改。
相关阅读
- OpenClaw 最佳 Skills 推荐:经过验证的中文场景技能。
- OpenClaw 完全安装指南 2026:本地部署教程。