⛰️ Muxi Fusion — 沐曦·融合

国产算力驱动的多模型智能协作 MCP 平台。一个 MCP Server，连接 Claude Code 与 沐曦曦云 C500 国产 GPU，通过智能路由与流水线引擎让 8 个模型自动协作，为开发者提供代码生成、审查、设计稿转代码等全链路 AI 编程辅助。

🏆 国产开源 GPU AI 创新生态赛 — 任务二参赛作品

架构概览

┌─────────────────────────────────────────────────┐
│               Claude Code（编排引擎）              │
│   意图理解 · 流程编排 · 工具调度 · 结果整合        │
└────────────────────┬────────────────────────────┘
                     │ MCP 协议 (Stdio)
                     ▼
┌─────────────────────────────────────────────────┐
│         Muxi Fusion MCP Server（神经中枢）         │
│   智能路由 · 流水线引擎 · LRU 缓存 · 监控 · 降级   │
│   10 个 MCP 工具 · 8 个模型 · 全链路流水线         │
└────────────────────┬────────────────────────────┘
                     │ HTTPS (OpenAI 兼容)
                     ▼
┌─────────────────────────────────────────────────┐
│        沐曦曦云 C500 GPU 集群（算力底座）           │
│  DeepSeek-V3/R1 · Qwen3-32B/72B · Embedding · VL│
│  全部模型通过 Gitee.AI 沐曦资源包 (ID: 1492) 调用   │
└─────────────────────────────────────────────────┘

核心特性

🧠 智能路由引擎 — 自动识别任务类型（代码生成/审查/对话/嵌入/图像理解），匹配最优模型，支持主备切换与指数退避重试
🔗 模型流水线 — 声明式编排多模型协作，内置 design-to-code（设计稿→视觉分析→代码生成→代码审查）和 code-review-pipeline（V3+R1 双重审查）两条流水线
📚 RAG 知识库 — 文档分块→向量化（3 款免费 Embedding 模型可选）→混合检索（向量+关键词）→智能问答
👁️ 多模态理解 — UI 设计稿分析、图表解读、OCR、照片描述
⚡ 高性能缓存 — LRU 缓存层，5 分钟 TTL，256 条聊天缓存 + 512 条嵌入缓存
📊 完整监控 — 调用日志持久化、成功率/延迟/缓存命中率统计、模型用量分布
🌐 Web 演示界面 — 4 标签页可视化工作台：设计稿→代码 / 代码生成 / 代码审查 / 智能对话

快速开始

1. 环境要求

Node.js 20+
Gitee.AI 沐曦资源包 API Key（模力方舟申请）

2. 安装与配置

# 克隆仓库
git clone https://gitlink.org.cn/lisy-one/muxi-fusion.git
cd muxi-fusion

# 安装依赖
npm install

# 配置环境变量
cp .env.example .env

编辑 .env：

MOARK_API_KEY=你的API_Key
MOARK_BASE_URL=https://api.moark.com/v1

3. 启动

方式一：Claude Code 自动连接（推荐）

项目根目录已配置 .mcp.json，Claude Code 启动时自动发现并加载本 MCP Server，无需手动配置。

方式二：手动启动

npm run dev          # 启动 MCP Server (Stdio 模式，Claude Code 连接)
npm run web          # 启动 Web 演示界面 → http://localhost:3456

4. 验证

在 Claude Code 中输入以下指令，观察是否自动调用沐曦 GPU：

帮我用 TypeScript 写一个带 JWT 认证的登录接口

Claude Code 自动调用 muxi_code_gen，将请求路由到 DeepSeek-V3（沐曦曦云 C500 GPU）。

MCP 工具清单

代码工具

工具	功能	默认模型	可选模型
`muxi_code_gen`	代码生成	DeepSeek-V3 (685B)	DeepSeek-R1
`muxi_code_review`	代码审查	DeepSeek-V3 (685B)	DeepSeek-R1

支持语言：Python, TypeScript, JavaScript, Go, Rust, Java, C/C++, HTML, CSS, SQL

审查维度：安全漏洞（OWASP Top 10）/ 性能 / 代码规范 / 逻辑错误 / 最佳实践

对话工具

工具	功能	默认模型	可选模型
`muxi_chat`	通用对话	Qwen3-32B	Qwen2.5-72B-Instruct, DeepSeek-V3

知识库工具 (RAG)

工具	功能	默认模型	可选模型
`muxi_embed`	文本向量化	Qwen3-Embedding-4B (2560维)	Qwen3-Embedding-8B (4096维), nomic-embed-code (768维)
`muxi_rag_index`	文档索引	Qwen3-Embedding-4B	Qwen3-Embedding-8B, nomic-embed-code
`muxi_rag_query`	知识库问答	Embedding + DeepSeek-V3	DeepSeek-R1

三款 Embedding 模型均完全免费。索引完成后自动持久化至本地 JSON 文件。

多模态工具

工具	功能	默认模型
`muxi_vision`	图像理解	Qwen2.5-VL-32B-Instruct

支持格式：PNG, JPG, GIF, WEBP。单次调用 ¥0.02。

管理工具

工具	功能
`muxi_list_models`	列出全部 8 个可用模型及状态、能力、定价
`muxi_pipeline`	执行预定义流水线（design-to-code / code-review-pipeline）
`muxi_stats`	查看调用统计：总次数、成功率、平均延迟、缓存命中率、模型用量

可用模型

模型	类型	上下文	定价	核心能力
DeepSeek-V3	文本	32K	输入 ¥2/百万Token 输出 ¥8/百万Token	代码生成、审查、推理、Function Calling
DeepSeek-R1	文本	64K	输入 ¥4/百万Token 输出 ¥16/百万Token	深度推理、复杂算法、数学证明
Qwen3-32B	文本	32K	输入 ¥1/百万Token 输出 ¥4/百万Token	中文优化、通用对话、快速响应
Qwen2.5-72B-Instruct	文本	32K	输入 ¥4/百万Token 输出 ¥4/百万Token	深度对话、复杂任务、Function Calling
Qwen3-Embedding-4B	嵌入	32K	免费	2560 维通用向量化
Qwen3-Embedding-8B	嵌入	32K	免费	4096 维高精度向量化
nomic-embed-code	嵌入	32K	免费	768 维代码专用向量化
Qwen2.5-VL-32B-Instruct	视觉	24K	¥0.02/次	图像理解、UI 分析、OCR

全部模型部署在沐曦曦云 C500 国产 GPU，通过 Gitee.AI 沐曦资源包 (ID: 1492) Serverless API 调用，无需自建 GPU 服务器。

路由策略

任务类型	主模型	备选模型	降级模型
代码生成	DeepSeek-V3	DeepSeek-R1	Qwen3-32B
代码审查	DeepSeek-V3	DeepSeek-R1	Qwen3-32B
通用对话	Qwen3-32B	Qwen2.5-72B-Instruct, DeepSeek-V3	DeepSeek-V3
文本嵌入	Qwen3-Embedding-4B	Qwen3-Embedding-8B, nomic-embed-code	Qwen3-Embedding-4B
图像理解	Qwen2.5-VL-32B-Instruct	-	Qwen3-32B

每次调用自动执行：主模型尝试 → 指数退避重试（最多 2 次）→ 降级至 fallback 模型。

使用示例

示例 1：代码生成 + 审查

# 在 Claude Code 中输入
用 Python 写一个带 LRU 淘汰机制的缓存装饰器，包含完整的类型注解

# Claude Code 自动调用 muxi_code_gen → DeepSeek-V3 (沐曦 GPU)
# 生成代码后继续：
审查刚才生成的代码，重点关注线程安全和性能
# Claude Code 自动调用 muxi_code_review → DeepSeek-V3

示例 2：RAG 知识库问答

# 1. 索引技术文档
帮我把这个项目的技术文档索引到知识库
# Claude Code 调用 muxi_rag_index → Qwen3-Embedding-4B

# 2. 基于知识库提问
根据刚才索引的文档，API 的错误码有哪些？
# Claude Code 调用 muxi_rag_query → 检索 + DeepSeek-V3 生成回答

示例 3：设计稿转代码（Web 演示界面）

1. 打开 http://localhost:3456，切换到「🎨 设计稿→代码」标签页
2. 上传 UI 设计稿截图
3. 点击「🚀 启动全链路流水线」
4. 自动执行三阶段流水线：
   ① Qwen2.5-VL-32B 分析设计稿布局、色彩、组件结构
   ② DeepSeek-V3 根据分析结果生成 HTML/CSS 代码
   ③ DeepSeek-V3 自动审查代码质量并给出优化建议
5. 右侧面板实时预览生成的页面效果

示例 4：图像分析

# 在 Claude Code 中输入
分析这张 UI 设计稿的布局结构和组件层级
# 附带图片路径，Claude Code 调用 muxi_vision → Qwen2.5-VL-32B

Web 演示界面

启动 npm run web 后访问 http://localhost:3456，提供 4 个功能标签页：

标签页	功能	核心流程
🎨 设计稿→代码	上传 UI 截图，自动生成 HTML/CSS 并预览	Vision → CodeGen → Review 三阶段流水线
✨ 代码生成	选择语言，输入需求描述，流式输出代码	支持语法高亮、代码下载、一键跳转审查
🔍 代码审查	粘贴代码，选择审查维度，输出结构化报告	风险等级、问题卡片、修复建议、修复后代码
💬 智能对话	通用 AI 对话，支持模型切换	思考过程折叠、Markdown 渲染

项目结构

muxi-fusion/
├── src/
│   ├── index.ts                 # MCP Server 入口 (Stdio 传输)
│   ├── config/
│   │   └── constants.ts         # API 配置 + 8 模型注册表 + 路由规则
│   ├── core/
│   │   ├── adapter.ts           # 统一模型适配层 (OpenAI 兼容接口)
│   │   ├── router.ts            # 智能路由引擎 (任务分类 + 模型选择)
│   │   ├── pipeline.ts          # 流水线引擎 (拓扑排序 + 依赖注入)
│   │   └── cache.ts             # LRU 缓存 (TTL 过期 + 淘汰策略)
│   ├── tools/
│   │   ├── code.ts              # muxi_code_gen + muxi_code_review
│   │   ├── chat.ts              # muxi_chat
│   │   ├── rag.ts               # muxi_embed + muxi_rag_index + muxi_rag_query
│   │   ├── vision.ts            # muxi_vision
│   │   ├── management.ts        # muxi_list_models + muxi_pipeline + muxi_stats
│   │   └── index.ts             # 工具注册入口
│   ├── rag/
│   │   ├── chunker.ts           # 文本分块 (按段落 + Token 估算)
│   │   ├── vector_store.ts      # 向量存储 (自适应维度 + 持久化)
│   │   └── retriever.ts         # 混合检索 (余弦相似度 + 关键词加权)
│   ├── monitor/
│   │   └── metrics.ts           # 性能指标收集 + 调用日志 (JSONL)
│   ├── server/
│   │   └── web.ts               # Web 演示服务 (Express 5 + SSE 流式)
│   ├── utils/
│   │   └── branding.ts          # 沐曦 GPU 算力来源标识
│   └── types/
│       └── index.ts             # 公共类型定义
├── public/
│   └── index.html               # Web 演示界面 (单文件，零外部依赖)
├── tests/
│   ├── core.test.ts             # 缓存 + 路由引擎单元测试
│   ├── pipeline.test.ts         # 流水线引擎单元测试
│   └── full_test.ts             # 完整功能集成测试 (11 项)
├── .mcp.json                    # Claude Code MCP 自动发现配置
├── .env.example                 # 环境变量模板
├── package.json
├── tsconfig.json
└── README.md

开发

npm run dev          # 启动 MCP Server (开发模式，Stdio)
npm run web          # 启动 Web 演示界面 (http://localhost:3456)
npm run build        # TypeScript 编译
npm test             # 运行单元测试 (Vitest)
npm run lint         # ESLint 检查
npm run format       # Prettier 格式化

性能指标

基于 11 次真实调用测试数据（详见 call_logs.jsonl 和 性能测试报告.md）：

指标	数值	说明
API 成功率	100%	11 次调用，零失败
平均延迟	28,941ms	含大模型推理时间
平均首 Token 延迟	1,170ms	SSE 流式响应
DeepSeek-V3 吞吐	~47 token/s	基于 6 次调用实测
Qwen3-32B 吞吐	~17 token/s	基于 5 次调用实测
总费用（11 次调用）	¥0.089	含 3 次代码生成 + 3 次代码审查 + 5 次对话

成本优势

模型	输入价格	输出价格	备注
DeepSeek-V3	¥2/百万Token	¥8/百万Token	代码生成、审查
DeepSeek-R1	¥4/百万Token	¥16/百万Token	深度推理
Qwen3-32B	¥1/百万Token	¥4/百万Token	通用对话
Qwen2.5-72B-Instruct	¥4/百万Token	¥4/百万Token	深度对话
Qwen3-Embedding-4B/8B	免费	免费	文本向量化
nomic-embed-code	免费	免费	代码向量化
Qwen2.5-VL-32B-Instruct	¥0.02/次	—	图像理解

全部模型部署在国产沐曦曦云 C500 GPU 上，成本远低于海外同类 API 服务。

算力平台

平台：Gitee.AI (Moark) — 模力方舟
算力：沐曦曦云 C500 国产 GPU
资源包：ID 1492
模式：Serverless API，无需自建 GPU 服务器
API 端点：https://api.moark.com/v1（OpenAI 兼容格式）
认证方式：Bearer Token + X-Package: 1492 请求头

技术栈

TypeScript · Node.js 20+ · @modelcontextprotocol/sdk · OpenAI SDK · Express 5 · Zod · Vitest · ESLint 9 · Prettier

参考来源

本项目参考了以下开源项目与资源：

Model Context Protocol (MCP) SDK — MCP 协议 TypeScript 实现
OpenAI Node.js SDK — OpenAI 兼容 API 客户端
Gitee.AI 模力方舟 — 沐曦 GPU Serverless API 文档
Express — Web 服务框架

开源协议

MIT