目录

FlagOS 是面向异构 AI 芯片的全开源 AI 系统软件栈,让 AI 模型只需开发一次即可轻松移植到各类 AI 硬件。本仓库收集的是 FlagOS 中可复用的 Skills,为 AI 编程智能体注入领域知识、流程规范和最佳实践。

English

什么是 Skills?

Skills 是一组文件夹化的能力包:每个 Skill 通过说明文档、脚本和资源,教会智能体在某一类任务上稳定、可复现地完成工作。每个 Skill 文件夹包含一个 SKILL.md 文件(YAML frontmatter + Markdown 正文),作为智能体的详细执行指令。还可包含参考文档、脚本和资源文件。

本仓库遵循 Agent Skills 开放标准

快速开始

FlagOS Skills 兼容 Claude CodeCursorCodex 以及任何支持 Agent Skills 标准 的智能体。

npx(推荐 — 适用于所有智能体)

使用 skills CLI 直接安装,无需克隆仓库:

# 查看本仓库中可用的 skills
npx skills add flagos-ai/skills --list

# 安装指定 skill 到当前项目
npx skills add flagos-ai/skills --skill model-migrate-flagos

# 全局安装(用户级别)
npx skills add flagos-ai/skills --skill model-migrate-flagos --global

# 一次安装所有 skills
npx skills add flagos-ai/skills --all

# 仅安装到指定智能体
npx skills add flagos-ai/skills --agent claude-code cursor

其他常用命令:

npx skills list              # 查看已安装的 skills
npx skills find              # 交互式搜索 skills
npx skills update            # 更新所有 skills 到最新版本
npx skills remove            # 交互式移除

提示: 无需预先安装 — npx 会自动下载 skills CLI。

Claude Code

  1. 注册本仓库为插件市场(在 Claude Code 交互模式中):
/plugin marketplace add flagos-ai/skills

或从终端执行:

claude plugin marketplace add flagos-ai/skills
  1. 安装 skills:
/plugin install flagos-skills@flagos-skills

或从终端执行:

claude plugin install flagos-skills@flagos-skills

安装后,在提示词中提及 skill 名称即可 — Claude 会自动加载对应的 SKILL.md 指令。

Cursor

本仓库包含 Cursor 插件清单(.cursor-plugin/plugin.json.cursor-plugin/marketplace.json)。

通过 Cursor 插件流程从仓库 URL 或本地路径安装。

Codex

在 Codex 中使用 $skill-installer

$skill-installer install model-migrate-flagos from flagos-ai/skills

或提供 GitHub 目录 URL:

$skill-installer install https://github.com/flagos-ai/skills/tree/main/skills/model-migrate-flagos

也可以直接复制 skill 文件夹到 Codex 的标准 .agents/skills 目录:

cp -r skills/model-migrate-flagos $REPO_ROOT/.agents/skills/

详见 Codex Skills 指南

Gemini CLI

gemini extensions install https://github.com/flagos-ai/skills.git --consent

本仓库包含 gemini-extension.jsonagents/AGENTS.md 用于 Gemini CLI 集成。详见 Gemini CLI 扩展文档

手动安装 / 其他智能体

对于任何支持 Agent Skills 标准 的智能体,将其指向本仓库的 skills/ 目录即可。每个 skill 都是独立的,以 SKILL.md 为入口。agents/AGENTS.md 文件可作为不原生支持 skills 的智能体的 fallback。

Skills 总览

大分类 小分类 Skill 说明
部署与发布 基础镜像选型 gpu-container-setup-flagos 自动检测 GPU 厂商,查找合适的 PyTorch 容器镜像,启动正确的挂载配置,并验证 GPU 功能。支持 NVIDIA、昇腾、Metax、天数智芯和 AMD/ROCm。当用户说”setup container”、”start pytorch container”或调用 /gpu-container-setup 时使用。
模型迁移 model-migrate-flagos 将上游最新 vLLM 仓库的模型迁移到 vllm-plugin-FL 项目(锁定 vLLM v0.13.0)。当用户想要为 vllm-plugin-FL 添加新模型支持、从上游 vLLM 移植模型代码或 backport 新发布的模型时使用。触发词如 “migrate X model”、”add X model support”、”port X from upstream vLLM”、”make X work with the FL plugin” 或直接 “/model-migrate-flagos model_name”。model_name 使用 snake_case(如 qwen3_5、kimi_k25、deepseek_v4)。不适用于 vLLM 0.13.0 核心已支持的模型,或不需要 backport 的纯多模态组件。
发布流水线 flagrelease-entrance-flagos 完整的 FlagRelease 流水线编排器。针对多芯片 GPU 后端运行完整的 LLM 部署、验证和基准测试流水线。按序执行:install-stack → env-verify → model-verify → perf-test,在步骤间传递状态并生成最终结构化报告。假设 gpu-container-setup(步骤1)已完成 — 必须有一个运行中的 PyTorch + GPU 访问的容器。
软件栈安装 install-stack-flagos 在 GPU 容器内安装 5 包多芯片软件栈(vLLM、FlagTree、FlagGems、FlagCX、vllm-plugin-FL)。处理网络镜像检测、依赖排序、wheel 选择和逐包验证。在 gpu-container-setup 产生运行中的 PyTorch + GPU 访问容器后使用。
基准测试与评测 精度与性能测试 perf-test-flagos 对已服务的模型运行精度基准测试(FlagEval,可用时)和性能基准测试(vllm bench serve)。覆盖 5 种工作负载配置:短/长 prefill × 短/长 decode + 高并发。收集吞吐量、延迟、TTFT、TPOT 指标。
部署 A/B 验证 model-verify-flagos 使用用户指定的目标模型验证服务栈。运行两次:首次禁用 FlagGems/FlagCX(隔离模型特定错误),然后启用完整多芯片栈。对比两次运行以定位故障来自哪一层。
FlagPerf 用例创建 规划中 为新模型/芯片基准测试用例生成 FlagPerf 兼容的目录结构、配置文件、运行脚本和预期指标基线。
部署后自动评测 规划中 模型部署后自动触发评测,跟踪评测状态,失败时报错,完成后推送结果通知。
算子与内核开发 复杂算子开发 规划中 为多步骤融合算子(fused attention、fused MoE 等)生成骨架代码,处理共享内存 tiling 策略和多后端分支。
实验性算子推广 规划中 扫描 FlagGems 约130个实验性算子,检查测试覆盖率,对齐签名,完成 _FULL_CONFIG 注册,生成迁移 PR 将其推广为主算子。
FlagGems 内核生成 kernelgen-flagos FlagGems 专用内核生成,含 @pointwise_dynamic 封装重写、_FULL_CONFIG 注册和算子签名对齐。
vLLM 内核生成 kernelgen-flagos vLLM 专用内核生成,含 SPDX 头、@triton.autotune、自定义算子注册和 dispatch 集成。
内核生成 kernelgen-flagos 统一的 GPU 内核算子生成与优化 skill。自动检测目标仓库类型(FlagGems、vLLM 或通用 Python/Triton)并派发到相应的专用子 skill。包含算子生成、基于 MCP 的迭代优化和反馈提交子 skill。当用户想要生成或优化 GPU 内核算子、创建 Triton 内核,或说 “generate an operator”、”create a kernel for X”、”optimize triton kernel”、”/kernelgen-flagos” 时使用。
内核优化 kernelgen-flagos 通用 Triton 内核优化,通过 MCP 迭代循环分析现有内核、识别瓶颈并进行多轮优化,直到达到目标加速比。
FlagGems 内核优化 kernelgen-flagos FlagGems 专用内核优化,支持 3 种模式:原地优化内置算子、优化外部算子并集成到 experimental_ops、或优化已有的实验性算子。包含准确率测试和性能 benchmark。
vLLM 内核优化 kernelgen-flagos vLLM 专用内核优化,含 CustomOp 注册、准确率测试和性能 benchmark 集成。优化 Triton 算子并自动集成到 vLLM 项目。
内核平台特化 kernelgen-flagos 通过 MCP specialize_kernel 工具将 Triton 算子特化到目标平台(如 GPU → 昇腾 NPU),处理架构差异、Grid 配置和内存对齐。
FlagGems 内核特化 kernelgen-flagos MCP 平台特化 + FlagGems 框架集成,支持 4 种集成模式:vendor-ops、vendor-fused、override-builtin、experimental,含自动测试和性能 benchmark。
算子诊断 规划中 诊断 FlagOS 技术栈中的异常算子——识别精度错误、性能回退和跨芯片的后端特定故障。
多芯片后端对接 Dispatch 算子扩展 规划中 base.py 查询可 dispatch 的算子,生成 impl 模板文件,向 register_ops.py 添加 OpImpl 注册,并创建单元测试骨架。
FlagCX 通信后端 规划中 从头文件解析 20+ 设备和 15+ CCL 函数指针签名,生成所有 stub 实现,外加 CMake 构建配置。
FlagGems 芯片后端 规划中 按照 FlagGems 后端贡献指南生成完整的 _vendor/ 脚手架:__init__.py(VendorInfoBase 配置)+ heuristics_config_utils.py + tune_configs.yaml + ops/ 目录。
异构训练配置 规划中 从硬件拓扑描述生成有效的 FlagScale 异构训练配置,自动计算 hetero_process_meshes / hetero_pipeline_layer_split,并验证约束(TP×DP×PP = 设备数)。
vLLM 厂商后端 规划中 从模板脚手架新建 vllm-plugin-FL 厂商后端:生成厂商目录、Backend 子类、is_available 检测、register_ops 框架和测试骨架。
开发者工具 反馈提交 kernelgen-flagos 自动收集环境信息,构建结构化 GitHub Issue,提交到 flagos-ai/skills,GitHub CLI 不可用时回退到邮件方式。
通用 tle-developer-flagos 用于编写高性能 TLE 内核和交付 TLE 功能变更的自包含编排 skill,含可复现验证。当用户想要编写/优化 TLE 内核、实现 TLE API/verifier/lowering 功能或调试 TLE 正确性/性能问题时使用。触发词如 “write a TLE kernel”、”optimize TLE operator”、”debug TLE local_ptr”。
本地开发环境 规划中 为 FlagOS 模块(FlagGems / FlagTree / FlagCX 等)搭建本地开发和调试环境——配置依赖、环境变量和调试工具链。
Skill 开发 skill-creator-flagos 为 FlagOS skills 仓库创建新 skill、修改现有 skill 和验证 skill 质量。当用户想要从头创建 skill、改进或编辑现有 skill、脚手架新 skill 目录、验证 skill 结构或运行测试用例时使用。触发词如 “create a skill”、”make a new skill for X”、”scaffold a skill”、”improve this skill”、”validate my skill” 或直接 “/skill-creator-flagos”。也适用于用户提到将工作流转化为可复用 skill 或想要打包重复流程为 skill 的场景。

在智能体中使用 Skills

安装 skill 后,在提示词中直接提及即可:

  • “使用 model-migrate-flagos 将 Qwen3-5 模型从上游 vLLM 迁移过来”
  • “/model-migrate-flagos qwen3_5”
  • “把 DeepSeek-V4 模型移植到 vllm-plugin-FL”

智能体会自动加载对应的 SKILL.md 指令和辅助脚本。

仓库结构

├── .claude-plugin/          # Claude Code 插件清单
│   └── marketplace.json
├── .cursor-plugin/          # Cursor 插件清单
│   ├── marketplace.json
│   └── plugin.json
├── agents/                  # Codex / Gemini CLI fallback
│   └── AGENTS.md
├── assets/                  # 仓库级静态资源
├── contributing.md          # 贡献指南
├── gemini-extension.json    # Gemini CLI 扩展清单
├── scripts/                 # 仓库级工具脚本
│   └── validate_skills.py   # 批量验证所有 skills
├── skills/                  # Skill 目录
│   ├── model-migrate-flagos/    # 模型迁移工作流
│   └── ...
├── spec/                    # Agent Skills 规范与本地约定
│   ├── README.md
│   └── agent-skills-spec.md
└── template/                # 新 skill 模版
    └── SKILL.md

创建新 Skill

  1. 创建目录并复制模版

    mkdir skills/<skill-name>
    cp template/SKILL.md skills/<skill-name>/SKILL.md
  2. 编辑 frontmattername(小写+短横线,必须与目录名一致)和 description(做什么+何时触发)

  3. 编写正文 — 概述、前提条件、执行步骤、示例(2-3个)、排障指南

  4. 添加辅助文件(可选) — references/scripts/assets/LICENSE.txt

  5. 验证

    python scripts/validate_skills.py

详见 contributing.md 贡献指南。

许可证

Apache License 2.0

关于
678.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号