polish: 最终彻底优化——架构图 / 评审导览 / 代码精炼 / 测试 / Skill 增强
- docs/architecture.md:mermaid 架构图(CLI/Skill/MCP/Agent 四入口 → 统一 mx_client 底座(白名单+关故障转移) → 沐曦GPU@Gitee.AI + 每次调用落 JSONL 证据)
- docs/REVIEW_GUIDE.md:评审导览,按任务二/三每条评分点对应”作品在哪满足+如何复现验证”+5分钟评审路径(诚实标注真实算力日志待券回填)
- bench.py:–model 去重保序(防 –model X –model X 双倍计费);mcp_server docstring 命令统一为 metax-bench-mcp
- tests/test_agent.py:+3 个 agent 工具测试(工具集/chat_once 吞错/benchmark 钳制 runs)→ 26 测试全绿
- README:顶部 30 秒价值速览 + docs 评审链接 + “一套底座覆盖任务二/三两个独立奖池”卖点
- SKILL.md:3 个真实场景示例 + 触发词强化;references/models.md 补适用场景
- ruff clean,26 tests green,Python 3.9 兼容
Co-Authored-By: Claude Opus 4.8 (1M context) noreply@anthropic.com
版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9
京公网安备 11010802047560号
metax-bench
30 秒看懂价值:
mx_client底座,分别以 Claude Code Skill、MCP Server、对话式智能体三种形态接入开发工作流。--runs N串行实测,自动汇总 P50/P95 时延、TTFT、吞吐(tokens/s),一键复现、横向对比。metax-bench 通过 Gitee.AI(模力方舟) 的 OpenAI 兼容端点调用部署在沐曦 GPU 上的国产大模型,对每一次调用都记录结构化日志(时延、Token 用量、HTTP 状态),并据此产出可复现的性能基准。这份调用日志本身就是「推理确实跑在沐曦算力上」的可验证参赛证据。
目录
1. 项目简介
metax-bench 是一个轻量、可复现的大模型推理基准工具:它把请求统一打到 Gitee.AI 上承载于沐曦(MetaX)GPU 的模型端点,逐次记录端到端时延、首 Token 时延(TTFT)与 Token 用量,并将结果沉淀为一行行 JSONL 日志——既是性能数据,也是算力调用证据链。同时,它以 Claude Code Skill 和 MCP Server 两种形态暴露能力,让 AI 编程助手可以直接调用沐曦算力并自动留痕。
2. 核心特性
chat调用都落一行 JSONL(含id/timestamp/model/endpoint/ Token 用量 /ttft_ms/total_ms/http_status/ok),成功失败都记录——失败也是证据。整份日志可作为「推理跑在沐曦 GPU」的可复现凭证。X-Failover-Enabled: false,杜绝绑定到沐曦资源包的 Token 静默回落到非沐曦算力,确保证据有效。metax-bench --runs N串行打多次同一请求,输出 TTFT、端到端时延、吞吐(tokens/s)等聚合指标,方便横向对比模型与复现实验。mx_client客户端、证据日志与基准引擎——同一份核心代码、同一条调用证据链,同时参评赛事任务二与任务三两个独立奖池,复用充分、维护单点。openaiSDK,仅锁定base_url到ai.gitee.com,已有代码迁移成本极低。GITEE_AI_TOKEN读取,绝不进入代码或文档。openai,无重型依赖。3. 演示
4. 快速开始
运行后:
logs/metax-YYYYMMDD.jsonl中追加 5 行调用记录,作为沐曦算力调用证据。5. 安装
从源码(开发 / 参赛复现推荐)
从 PyPI(发布后)
环境要求:核心库 / CLI 需 Python ≥ 3.9,依赖
openai>=1.40.0;MCP 形态需 Python ≥ 3.10,额外依赖mcp>=1.2.0。6. 配置(Claude Code / Cursor)
在 Python ≥ 3.10 环境下安装
[mcp]extra 后,metax-bench 可作为 MCP Server 挂载到支持 MCP 的客户端。令牌统一用${GITEE_AI_TOKEN}占位,由客户端从你的 shell 环境注入,不要在配置文件里写明文密钥。启动命令为
metax-bench-mcp(安装后即在 PATH 中);如未挂到 PATH,可改用备选python -m metax_bench.mcp_server。Claude Code(
~/.claude.json或项目级.mcp.json的mcpServers段):Cursor(
~/.cursor/mcp.json或项目级.cursor/mcp.json):7. 工具与参数
7.1 CLI 参数
metax-bench命令用于一次性跑基准并落证据日志。--modelDeepSeek-V3.2--runs10--prompt--outputbenchmark.md--max-tokens2567.2 MCP 工具
挂载 MCP Server 后,客户端可调用以下工具:
metax_chatprompt、model?(默认DeepSeek-V3.2)metax_benchmarkmodel?(默认DeepSeek-V3.2)、runs?(默认 5,上限 50)metax_list_models8. 示例输入输出与性能表
8.1 作为库直接调用
8.2 一行 JSONL 证据日志(示意)
8.3 性能基准
完整基准报告见
docs/benchmark.md。以下为示例结构,真实数据待算力券到位回填:任务三延伸:MetaX Copilot 智能体
本仓库基于同一套
mx_client底座,额外实现了一个对话式智能体 MetaX Copilot(自研 ReAct 框架,对应赛事任务三):你用自然语言提问,它在沐曦算力上选型 / 评测 / 推理,多轮对话 + 工具调用 + 任务状态跟踪,每一步调用同样落 JSONL 证据。工具集:
list_models(列沐曦在线模型)、benchmark(实测性能)、chat_once(沐曦推理)。设计方案、架构图与创意 PPT 大纲见docs/task3-design.md。沐曦合规说明
base_url仅允许ai.gitee.com(默认https://ai.gitee.com/v1),不调用 OpenAI 等任何外部推理服务,确保推理真实发生在 Gitee.AI 承载的沐曦(MetaX)GPU 上。X-Failover-Enabled: false,绑定沐曦资源包的 Token 不会静默回落到非沐曦算力,保证证据归属可信。logs/metax-YYYYMMDD.jsonl,记录时延、Token 用量与 HTTP 状态,整份日志可作为「推理跑在沐曦算力」的可复现参赛证据。GITEE_AI_TOKEN注入,绝不写入代码、配置或文档明文;.env已被.gitignore忽略。License
本项目以 Apache-2.0 许可证开源。
致谢
作者:何开元(GitLink: recorder)