跳到主要内容

Superpowers vs agent-skills vs gstack 深入对比

分析时间:2026年4月 | 目的:理解三大 Claude Code 插件/技能体系的差异,给出选型建议


一、三个项目是什么

它们解决的核心问题

Claude Code 虽然强大,但"裸跑"有两个痛点:

  1. 缺乏纪律 — 没有工作流程约束,AI 容易走捷径("回头再补测试")
  2. 缺乏角色分工 — 一个 AI 完成所有事,没有视角切换(产品、工程、设计、QA)

三个项目从不同角度解决了这些问题:

裸跑 Claude Code Superpowers gstack agent-skills
───────────────── ────────────── ────────── ─────────────
▲ ▲ ▲
│ │ │
你 强制流程 虚拟团队 文化注入
↓ ↓ ↓ ↓
随便问 7个阶段必须走完 25个角色/工具 20个技能编码
→ 看运气 → 质量可控 → 视角全面 → 标准一致

二、三个项目核心对比总表

维度🔴 Superpowers🟢 agent-skills🔵 gstack
作者Jesse Vincent (Prime Radiant)Addy Osmani (Google AI 总监)Garry Tan (YC CEO)
GitHub Stars~107K~21K~55K
定位工程纪律执行器编码文化注入器虚拟工程团队
核心哲学"AI 的问题不是能力,是缺乏纪律""技能编码了资深工程师的工作流""别让一个 AI 做所有事,给它不同角色"
触发方式自动触发 (auto-triggered)手动 /command 调用手动 /command 调用
阶段数/技能数7 个强制阶段7 个命令 + 20 个技能25+ 个命令/角色
强制 TDD✅ 强制(写实现前必须有失败测试)✅ 推荐(TDD 作为独立技能)❌ 非强制(QA 阶段测试)
多模型交叉验证❌ 不支持❌ 不支持✅ 支持 (Claude + Codex)
浏览器测试❌ 无✅ DevTools MCP✅ 原生 Chromium (持久化)
跨平台支持Claude Code, Cursor, Codex, Gemini CLIClaude Code, Cursor, Gemini CLI, Copilot, Windsurf, KiroClaude Code, Codex, Gemini CLI, Cursor
协议标准SKILL.mdSKILL.mdSKILL.md
许可证MITMITMIT

三、架构设计对比

3.1 Superpowers — 管道式架构 (Pipeline)

Superpowers 架构
┌─────────────────────────────────────────────────────────────────────────┐
│ │
│ session-start hook (入口) │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 7 阶段强制管道 (Mandatory Pipeline) │ │
│ │ │ │
│ │ ① Brainstorming ──► ② Spec ──► ③ Plan ──► ④ TDD ──► │ │
│ │ │ │
│ │ ⑤ Subagent Dev ──► ⑥ Code Review ──► ⑦ Finalize │ │
│ │ │ │
│ │ 每个阶段必须完成才能进入下一阶段 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 支撑机制 │ │
│ │ • 1% Rule: 只要1%概率相关,必须触发技能 │ │
│ │ • No Placeholders: 计划不允许出现 TBD/"类似任务" │ │
│ │ • Forced TDD: 先写实现? 删了重来 │ │
│ │ • Inline Self-Review: v5.0.6+ 内置自审查,省去子代理调用的开销 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘

特点:自上而下的强制流程,像工厂流水线。
适合:需要质量保障的日常开发。

3.2 gstack — 角色式架构 (Role-based)

gstack 架构
┌─────────────────────────────────────────────────────────────────────────┐
│ │
│ 入口:用户通过 /command 按需调用角色 │
│ │
│ 角色层 (18个) │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ CEO视角 │ │ 设计师 │ │ 工程经理 │ │ QA │ │ 安审 │ │
│ │ /office- │ │ /plan- │ │ /plan- │ │ /qa │ │ /cso │ │
│ │ hours │ │ design- │ │ eng- │ │ /browse │ │ │ │
│ │ │ │ review │ │ review │ │ │ │ │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │ │ │ │
│ └────────────┴────────────┼────────────┴────────────┘ │
│ ▼ │
│ 工具层 (7个) │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ /codex │ │ /freeze │ │ /guard │ │ /setup- │ │ /gstack- │ │
│ │ 交叉验证 │ │ 编辑锁定 │ │ 全防护 │ │ deploy │ │ upgrade │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ 关键特性: │
│ • 持久化浏览器守护进程 (不依赖 MCP,延迟更低) │
│ • 多 Agent 并行 (Conductor 调度 10-15 个独立会话) │
│ • 编辑锁定 (/freeze) 防止范围蔓延 │
│ │
└─────────────────────────────────────────────────────────────────────────┘

特点:按需调用的角色团队,像指挥一个工程部门。
适合:产品从0到1快速发货。

3.3 agent-skills — 插件式架构 (Library)

agent-skills 架构
┌─────────────────────────────────────────────────────────────────────────┐
│ │
│ 用户通过 /command 调用技能 │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 技能库 (20个独立技能,按生命周期组织) │ │
│ │ │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ Define │→│ Plan │→│ Build │→│ Verify │→│... │ │ │
│ │ │ /spec │ │ /plan │ │ /build │ │ /test │ │ │ │
│ │ │ idea- │ │ task- │ │ TDD │ │ debug │ │ │ │
│ │ │ refine │ │ breakdown│ │ frontend│ │ browser │ │ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │
│ │ │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ Review │→│ Ship │ │ Cross- │ │ │
│ │ │ /review │ │ /ship │ │ cutting │ │ │
│ │ │ code- │ │ git- │ │ security │ │ │
│ │ │ simplify│ │ workflow│ │ perf │ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 每个技能的内部结构 │ │
│ │ │ │
│ │ • Metadata (YAML frontmatter, ~100 tokens) │ │
│ │ • 核心流程 (编号步骤 + ASCII图) │ │
│ │ • 反理性化表 (Anti-rationalization: 预判AI会找什么借口) │ │
│ │ • 红旗告警 (Red flags: 违反技能的可观察行为) │ │
│ │ • 验证门 (Verification gates: 带证据要求的退出条件) │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ 关键特性: │
│ • 渐进披露 (Progressive Disclosure):按需加载,节省 Token │
│ • 跨平台:可在任何支持 Markdown 的 AI 编码工具中运行 │
│ • 编码了 Google 内部的工程文化 │
│ │
└─────────────────────────────────────────────────────────────────────────┘

特点:可组合的技能库,像安装了一个"资深工程师"的知识库。
适合:团队标准化、建立编码规范。

四、能力矩阵对比

4.1 开发生命周期覆盖

Superpowers agent-skills gstack
──────────── ───────────── ──────

需求澄清 ✅ Brainstorming ✅ /spec + idea-refine ✅ /office-hours
(Socratic问答) (PRD-first) (YC式逼问)

架构设计 ⚠️ 弱 ⚠️ 弱 ✅ /plan-eng-review
/plan-design-review

任务规划 ✅ Writing Plans ✅ /plan + task- ⚠️ 弱
(详细到文件路径) breakdown

编码实现 ✅ Subagent Dev ✅ /build + TDD ✅ 各角色按需调用
(并行子代理)

测试 ✅ 强制 TDD ✅ /test + Test ✅ /qa + /browse
(红-绿-重构) Pyramid (真实浏览器)

代码审查 ✅ Code Review ✅ /review + code- ✅ /review + /codex
(按严重级别分级) simplify (交叉模型验证)

安全审计 ⚠️ 弱 ✅ 独立 skill ✅ /cso (OWASP/STRIDE)

性能优化 ❌ 不支持 ✅ 独立 skill ✅ /benchmark (CWV)

部署上线 ✅ Finalize ✅ /ship ✅ /ship + /land-and-
(合并/PR) (灰度发布+监控) deploy

复盘回顾 ❌ 不支持 ❌ 不支持 ✅ /retro (团队指标)

4.2 Token 效率对比

项目启动时的 Token 开销(估算)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Superpowers ████████████████████████████ ~15K-25K tokens
(session-start加载全部技能元数据)

gstack ██████████████████ ~10K-15K tokens
(只加载匹配的命令及其依赖)

agent-skills ████████ ~3K-5K tokens
(渐进披露,只加载metadata)

裸跑 Claude ██ ~1K tokens
(无额外加载)

─────────────────────────────────────────────────────
注:实际执行阶段 token 消耗取决于具体任务复杂度

4.3 学习曲线

易上手程度
────────

agent-skills ═══╗████████████████████ ★★★★☆ (最易)
║ 20个技能命名清晰,独立使用
║ 类似"命令菜单"体验

gstack ═══╬███████████████ ★★★☆☆
║ 25+命令需要记忆
║ 但使用场景明确

Superpowers ═══╝██████████ ★★☆☆☆ (最复杂)
║ 7阶段强制流水线
║ 违反规则会被"惩罚"(删代码)

五、代表特色功能深度对比

5.1 Superpowers — 强制 TDD

这是三个项目中唯一强制 TDD 的:

普通工作流:
写代码 → 跑测试 → 通过 ✅

Superpowers 工作流:
写测试(红) → 跑测试(确认失败) → 写实现(绿) → 重构 → 跑测试

└── 如果先写了实现代码 → ❌ 自动删除实现,强制重新开始

5.2 gstack — 角色切换 + 浏览器测试

/qa 命令的完整流程:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1. 启动持久化 Chromium 实例(非 MCP,原生二进制)
2. 打开目标页面 URL
3. 模拟用户点击流程(保持 Cookies/Session)
4. 截图 + 控制台错误检查
5. 发现 Bug → 自动修复 → 生成回归测试
6. 报告:通过/失败 + 截图证据

/codex 命令:
→ 同一份代码同时发给 Codex CLI
→ 两个模型各自审查
→ 输出交叉对比:哪些发现重叠,哪些是各自独有的

5.3 agent-skills — 反理性化表 (Anti-Rationalization)

这是 agent-skills 最独特的设计——每个技能都预判了 AI 可能找的借口:

反理性化表示例(来自 code-review skill)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

AI 可能说的借口 技能的预置反驳
────────────────── ──────────────────

"这只是个小改动,不用审查" "90%的生产事故来自'小改动'"

"测试回头再补" "回头=永远不会。现在补。"

"这个函数太复杂了,但能工作" "能工作 ≠ 应该合并。先简化。"

"我已经在脑子里审查过了" "代码审查是外显的过程,不是内隐的思考"

"改动超过100行了,是因为..." "拆成多个PR。不可审查=不可合并。"

这种设计的价值在于:AI 模型天然倾向于走捷径,反理性化表在技能层面就截断了这些倾向。


六、选型建议

6.1 决策树

你想用 Claude Code 做什么?



┌──────────────────────────────────────────────────┐
│ 你的角色? │
├──────────────────────────────────────────────────┤
│ │
│ 个人开发者 │
│ ├── 自己在0到1做产品 → gstack │
│ │ (CEO/设计师/QA一整套角色) │
│ │ │
│ ├── 日常编码但想要代码质量 → Superpowers │
│ │ (强制流程保障质量) │
│ │ │
│ └── 学Google的最佳实践 → agent-skills │
│ (编码了资深工程师的知识) │
│ │
│ 团队/小团队 │
│ ├── 建立统一编码规范 → agent-skills + Superpowers │
│ │ (文化注入+流程执行) │
│ │ │
│ └── 快速迭代+质量兼顾 → gstack + agent-skills │
│ (角色视角+工程标准) │
│ │
│ 企业/大团队 │
│ └── 标准化全流程 → agent-skills + gstack │
│ (标准定义+角色分工) │
│ │
└──────────────────────────────────────────────────┘

6.2 按场景推荐

你的场景推荐方案理由
新手刚接触agent-skills上手最容易,渐进披露不吓人
日常功能开发Superpowers强制流程带你养成好习惯
做自己的产品gstack一个命令集齐CEO到QA
团队规范建设agent-skills + Superpowers先定义标准,再强制执行
全栈Web应用gstack + agent-skillsgstack测浏览器,agent-skills把关代码
高安全要求项目agent-skills + gstackagent-skills有安全技能,gstack有安全官角色
不想改变工作流agent-skills手动调用,不强制流程

6.3 三个项目的本质差异(一句话总结)

Superpowers = 教练 → 盯着你,逼你走完标准流程
agent-skills = 教科书 → 教你怎么写生产级代码
gstack = 团队领导 → 帮你叫齐各路专家开会

七、能否一起用?

可以,而且很多人这么干。 社区流行的组合方式:

方案 A:全都要(进阶用户)

gstack (决策层) agent-skills (标准层) Superpowers (执行层)
───────────────── ──────────────────── ─────────────────────

/office-hours /spec Brainstorming + TDD
→ 想清楚做什么 → 写清楚规格 → 规范地做

/plan-ceo-review /plan Writing Plans
→ 想清楚为什么做 → 拆清楚任务 → 拆到文件级

/qa + /browse /review + /code-simplify Code Review
→ 测清楚效果 → 审清楚质量 → 合并代码

方案 B:轻量组合(实用派)

agent-skills + gstack = 你按需调用,想用什么用什么
agent-skills + Superpowers = 文化注入 + 流程强制
gstack + Superpowers = 角色视角 + 纪律执行

注意事项

  • 不要一起加载全部三个的完整技能集 → Token 爆炸(可能 50K+)
  • 建议只安装你实际需要的 /command 前缀
  • 使用 ~/.claude/settings.json 控制哪些技能目录被加载

八、最终结论

项目一句话评价适合人群不适合人群
Superpowers目前最成熟的强制工程纪律方案有经验的开发者、团队只想快速原型的新手、小改动频繁的人
agent-skills中立、可移植、教学型的方案所有想写出更好代码的人不想改变工作习惯的人
gstack功能丰富、角色最全的方案独立开发者、从0到1的创业者只需要简单编码辅助的人

个人建议:如果只能选一个开始,从 agent-skills 入手——学习成本最低,没有强制流程的压力,但能学到资深工程师的思维模式。等你熟悉了再决定是否需要 Superpowers 的纪律或 gstack 的角色。


参考链接