更新源码目录链接为 gitlink 完整 URL
2026 年度中国青年科技创新「揭榜挂帅」擂台赛正式启幕。沐曦股份重磅发布两大 AI 算力硬核榜题,聚焦国产 GPU 大模型推理算子优化,以硬核赛事搭建科研攻关平台,邀全国青年学子、科研人才揭榜攻坚,用技术重构推理效率,用创新拉低每 Token 算力成本!
当前主流大模型底层代码深度绑定海外生态,国产算力缺少自主可控的核心算子库,成为成本优化与产业安全的双重短板。
本赛题依托国产开源 TileLang语言 + 沐曦 MXMACA 全栈软件栈 + 曦云 C500 算力,聚焦三大业界前沿高价值算子攻坚:
🔹 Fused Moe Gemm:优化 MoE 模型稀疏计算,提升算力利用率
🔹 MLA(Multi-Head Latent Attention):适配 DeepSeek V3,压缩 KV Cache 显存,破解长序列成本瓶颈
🔹 NSA(Native Sparse Attention):实现超长文本推理加速,显存节省超 50%
初赛攻坚 Fused Moe Gemm、决赛冲刺 MLA/NSA,全程基于全国产技术栈开发优化,打造自主可控的低成本大模型推理算子底座。
赛题一相关资料
大模型推理具有高并发、长序列、高调用频次等特点,FlashInfer、FlashAttention、Fused MoE 等核心算子直接决定模型服务的吞吐、延迟与显存开销,影响单 Token 综合推理成本。
本赛题面向沐曦国产 GPU 及 MXMACA 软件栈,鼓励参赛团队构建或使用 AI Agent / Skill 工作流,围绕推理算子库开展代码理解、算子迁移、性能分析、Kernel 优化、自动调优、Benchmark 验证和多轮迭代,探索“Agent 驱动算子优化”的新型开发范式。
参赛作品应体现 AI Agent 在底层算子优化过程中的实际参与能力,而不是仅停留在概念说明、文档生成或简单代码补全层面。参赛团队需要理解大模型推理算子库的计算逻辑、国产 GPU / MXMACA 软件栈的开发方法,以及 AI Agent / Skill 优化工作流,在保证正确性、稳定性和可复现性的前提下,提升相关算子或端到端推理链路在国产 GPU 上的执行性能。
参赛团队可围绕以下推理算子库或核心算子,选择一类或多类任务开展优化工作:
flash_attn_with_kvcache
最终成果应包括可复现的源码、测试框架、性能测试脚本、性能报告、Agent / Skill 工作流,以及对应的文档和展示材料。评审将重点考察性能提升效果、Agent / Skill 工作流的可复现性,以及文档说明与演示报告的完整性。
赛题二相关资料
面向全国全日制专科、本科、硕博在校生(非在职),40 周岁以下青年科技人才均可参与;
可个人 / 团队组队(团队≤10 人),跨专业、跨校、跨地域自由组队,最多 3 名指导老师带队。
现金奖金激励
擂主 10 万元、特等奖 2 万元、一等奖 1 万元、二等奖 0.5 万元、三等奖 0.2 万元
硬件福利加码
擂主直得 2 张沐曦高端 GPU 加速卡、特等奖专属 GPU 加速卡
成长专属权益
优秀获奖者直通沐曦 & 之江联合培养计划、赛事官方荣誉证书
生态曝光扶持
优秀作品入驻沐曦开发者社区 & 启悟学习社区,成果孵化 + 产业落地全方位赋能
提供曦云 C500 在线算力资源券,无需自备硬件
线上专项技术培训 + 回放文档,零基础也能快速上手
沐曦股份资深技术专家社群常驻答疑,定期解惑攻关难题
官方提供技术文档、算子基线样例、标准测试集与评测脚本
赛事交流群:
5.30-6.30 赛事报名
5-9 月 课题攻关
9月初审
10-11月 终审擂台赛
沐曦开发者社区活动页面,完成新人礼任务,提前熟悉 C500 在线算力使用。https://developer.metax-tech.com/activities/6
报名赛事后还可额外获得300元算力代金券:https://developer.metax-tech.com/activities/17
使用指南:模力方舟快速使用 SOP
青年挺膺担当,科创筑梦算力!
加入沐曦股份“揭榜挂帅”赛题,深耕国产 GPU 算子优化,用技术降低每 Token 推理成本,共建自主可控 AI 算力新生态!
👇 报名通道:登录挑战杯官网 www.tiaozhanbei.net 揭榜挂帅入口报名
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802047560号
降低Token 成本,攻坚国产推理生态|沐曦两大赛题登陆 2026 揭榜挂帅擂台赛,邀青年共破局!
2026 年度中国青年科技创新「揭榜挂帅」擂台赛正式启幕。沐曦股份重磅发布两大 AI 算力硬核榜题,聚焦国产 GPU 大模型推理算子优化,以硬核赛事搭建科研攻关平台,邀全国青年学子、科研人才揭榜攻坚,用技术重构推理效率,用创新拉低每 Token 算力成本!
两大重磅赛题 直击推理成本核心痛点
赛题一:基于国产软件栈大模型推理前沿算子优化
当前主流大模型底层代码深度绑定海外生态,国产算力缺少自主可控的核心算子库,成为成本优化与产业安全的双重短板。
本赛题依托国产开源 TileLang语言 + 沐曦 MXMACA 全栈软件栈 + 曦云 C500 算力,聚焦三大业界前沿高价值算子攻坚:
🔹 Fused Moe Gemm:优化 MoE 模型稀疏计算,提升算力利用率
🔹 MLA(Multi-Head Latent Attention):适配 DeepSeek V3,压缩 KV Cache 显存,破解长序列成本瓶颈
🔹 NSA(Native Sparse Attention):实现超长文本推理加速,显存节省超 50%
初赛攻坚 Fused Moe Gemm、决赛冲刺 MLA/NSA,全程基于全国产技术栈开发优化,打造自主可控的低成本大模型推理算子底座。
赛题一相关资料
赛题二:基于 AI Agent 开发范式的国产 GPU 大模型推理算子库优化
大模型推理具有高并发、长序列、高调用频次等特点,FlashInfer、FlashAttention、Fused MoE 等核心算子直接决定模型服务的吞吐、延迟与显存开销,影响单 Token 综合推理成本。
本赛题面向沐曦国产 GPU 及 MXMACA 软件栈,鼓励参赛团队构建或使用 AI Agent / Skill 工作流,围绕推理算子库开展代码理解、算子迁移、性能分析、Kernel 优化、自动调优、Benchmark 验证和多轮迭代,探索“Agent 驱动算子优化”的新型开发范式。
参赛作品应体现 AI Agent 在底层算子优化过程中的实际参与能力,而不是仅停留在概念说明、文档生成或简单代码补全层面。参赛团队需要理解大模型推理算子库的计算逻辑、国产 GPU / MXMACA 软件栈的开发方法,以及 AI Agent / Skill 优化工作流,在保证正确性、稳定性和可复现性的前提下,提升相关算子或端到端推理链路在国产 GPU 上的执行性能。
参赛团队可围绕以下推理算子库或核心算子,选择一类或多类任务开展优化工作:
flash_attn_with_kvcache等核心接口,提升长序列场景下的 Attention 计算性能;最终成果应包括可复现的源码、测试框架、性能测试脚本、性能报告、Agent / Skill 工作流,以及对应的文档和展示材料。评审将重点考察性能提升效果、Agent / Skill 工作流的可复现性,以及文档说明与演示报告的完整性。
赛题二相关资料
参赛对象
面向全国全日制专科、本科、硕博在校生(非在职),40 周岁以下青年科技人才均可参与;
可个人 / 团队组队(团队≤10 人),跨专业、跨校、跨地域自由组队,最多 3 名指导老师带队。
丰厚赛事激励
现金奖金激励
擂主 10 万元、特等奖 2 万元、一等奖 1 万元、二等奖 0.5 万元、三等奖 0.2 万元
硬件福利加码
擂主直得 2 张沐曦高端 GPU 加速卡、特等奖专属 GPU 加速卡
成长专属权益
优秀获奖者直通沐曦 & 之江联合培养计划、赛事官方荣誉证书
生态曝光扶持
优秀作品入驻沐曦开发者社区 & 启悟学习社区,成果孵化 + 产业落地全方位赋能
全程赛事保障 助力全力攻坚
提供曦云 C500 在线算力资源券,无需自备硬件
线上专项技术培训 + 回放文档,零基础也能快速上手
沐曦股份资深技术专家社群常驻答疑,定期解惑攻关难题
官方提供技术文档、算子基线样例、标准测试集与评测脚本
赛事交流群:
关键时间节点
5.30-6.30 赛事报名
5-9 月 课题攻关
9月初审
10-11月 终审擂台赛
算力获取和使用
沐曦开发者社区活动页面,完成新人礼任务,提前熟悉 C500 在线算力使用。https://developer.metax-tech.com/activities/6
报名赛事后还可额外获得300元算力代金券:https://developer.metax-tech.com/activities/17
使用指南:模力方舟快速使用 SOP
青年挺膺担当,科创筑梦算力!
加入沐曦股份“揭榜挂帅”赛题,深耕国产 GPU 算子优化,用技术降低每 Token 推理成本,共建自主可控 AI 算力新生态!
👇 报名通道:登录挑战杯官网 www.tiaozhanbei.net 揭榜挂帅入口报名