Claude Skills 完整指南 2026：创建、测试、优化全流程

2026年5月21日

10 min read

Claude Skills 解决一个具体问题：Claude 能力强但不稳定，可以写任何风格、走任何流程，但记不住你的偏好。Skills 就是可复用的指令集，告诉 Claude 该怎么做。Skills 2.0 补上了之前最缺的一环：怎么知道你的技能是否真的有效。本文覆盖如何为 Claude.ai 和 Claude Code 创建、测试、优化技能。

什么是 Claude Skills

Skills 是包含 SKILL.md 和可选资源（模板、示例、脚本）的文件夹。SKILL.md 有两部分：

Frontmatter：告诉 Claude 什么时候用：

---
name: code-review
description: 检查代码安全漏洞、性能问题、可维护性。当被要求 review 代码或检查 bug 时使用。
---

Instructions：告诉 Claude 怎么做：

# 代码 Review 技能

## 流程
1. 检查安全漏洞（OWASP Top 10）
2. 找性能瓶颈
3. 评估可读性和可维护性
4. 给出具体改进建议

## 输出格式
- 总结（1-2 句）
- 严重问题（必须改）
- 建议（应该改）

匹配描述时 Claude 自动加载技能并按指令执行。结果：稳定可复现的输出。

两种技能类型

能力增强型：教 Claude 它不会的事，比如你公司的 code review 清单、合规要求。

偏好编码型：让 Claude 按你的方式做它本来就会的事，比如统一博客的结构和语调。

区分很重要：能力增强型应该客观上比裸 Claude 强；偏好编码型可能客观指标差不多，但符合你的偏好。

Skills 2.0 新增四大能力

Anthropic Skills 2.0 更新把"希望它能用"变成"证明它能用"：

能力	作用
Evals	跑测试用例，报告通过率
A/B 基准	盲测对比技能和裸 Claude
触发调优	优化技能何时激活
多 Agent 并行测试	并行跑 eval，更快更可靠

Anthropic 自己 6 个技能里发现 5 个有问题，你的技能大概率也有。

创建技能

方法 1：用 Skill Creator（推荐）

在 Claude Code 或 Claude.ai 里说：

为 [描述你要做的事] 创建一个 skill

它会问清楚你的工作流、生成文件夹、格式化 SKILL.md、打包资源。

方法 2：手动创建

my-skill/
├── SKILL.md          # 必需：frontmatter + 指令
├── template.md       # 可选：输出模板
├── examples/         # 可选：输入输出示例
└── scripts/          # 可选：辅助脚本

安装

Claude Code：放在项目的 .claude/skills/（项目专用）或 ~/.claude/skills/（全局）。

Claude.ai：设置 → 功能 → 上传 ZIP。Pro、Max、Team、Enterprise 套餐可用。

现成技能：Anthropic 官方仓库或 awesome-claude-skills 社区集合。

跑 Eval

Eval 是 Skills 2.0 最重要的功能。

第一步：写 5-10 个测试用例

1. "review 这段 Python，检查安全问题" + [带 SQL 注入的代码]
   预期：识别 SQL 注入
2. "review 这个 API 端点" + [缺鉴权的代码]
   预期：标记缺失鉴权
3. "review 这个 React 组件" + [干净代码]
   预期：无严重问题

第二步：跑 eval

在 Claude Code：

为我的 code-review 技能跑 eval

报告：通过率（8/10）、具体失败、响应时间、token 用量。

第三步：修复失败

为每个失败用例：加更具体的指令、补示例、澄清模糊语言。

第四步：重跑

迭代到达标。关键技能 90%+，偏好技能 70-80% 可接受。

A/B 基准测试

技能比裸 Claude 强吗？模型升级后曾经有用的技能可能变冗余。

为 code-review 技能做 A/B 基准测试

系统盲测对比，报胜率：

70%+：技能明显有用，保留
50-70%：边际改进，可能要细化
<50%：技能在拖后腿，删掉或重写

每次重大模型更新后、技能大改后、季度维护时都要重跑。

触发优化

技能不在该用时激活就白搭。

常见问题

太宽泛："帮助编程任务"会在每个编程请求都触发。

太狭窄："review Python FastAPI 的 OWASP 漏洞"对一般 review 请求不触发。

模糊重叠：两个技能描述相似，Claude 随机选一个或都不用。

修复方法

明确何时用："当用户要求 review 代码安全问题、检查漏洞、审计安全时使用。"
明确何时不用："不用于一般代码质量 review、性能优化、重构建议。"
用边界 prompt 测：

为 code-review 技能测触发：
- "review 这段代码" → 应触发
- "重构这个函数" → 不应触发
- "这代码安全吗" → 应触发

最佳实践

小处入手：第一个技能做一件具体事，不是整个工作流。

带示例：examples/ 里有输入输出示例的技能比纯指令的好用。

用 Git 管理：技能放仓库，回滚时方便。

模型更新后维护：每次大更新跑 A/B 基准。

分享有用的：技能就是文件夹，社区会感激你。

团队技能架构

个人技能（~/.claude/skills/）：个人偏好
项目技能（.claude/skills/）：仓库共享，提交到 Git
组织技能：通过 Claude.ai 团队设置分发

分层使用：组织设基线，项目加代码库细节，个人处理工作流偏好。

中文开发者补充

国内访问 Claude.ai 需要稳定的国际网络。如果你用阿里云 Coding Plan 走 OpenClaw，可以参考 OpenClaw 完全安装指南 2026 和 OpenClaw 最佳 Skills 推荐，里面有中文场景下经过验证的技能模板。

掘金 juejin.cn 和 V2EX 上已经有不少中文开发者分享他们的 Skills 经验，从博客写作到代码 review 都有现成模板可改。