目录

openUBMC AIOps Sentinel

赛题一交付工程:重塑 BMC:AI 时代智能运维创新平台

本仓库提供一个可评审的 POC:在 openUBMC 侧采集传感器、日志和电源状态,使用 Kaggle GPU 训练/评估模型,在 BMC 侧部署轻量推理包,输出故障风险、根因假设和可执行运维动作。

方案概览

  • 方法 A:联网模型路线
    使用 Amazon Chronos/Chronos-Bolt 等时序基础模型在 Kaggle GPU 上做遥测预测和异常阈值校准,适合快速获得强基线。
  • 方法 B:自建模型路线
    在 Kaggle GPU 上训练本仓库的 Tiny MLP 风险分类器,导出 ONNX + 阈值配置,适合嵌入式侧低资源部署。
  • BMC 侧 POC
    openubmc_aiops 只依赖 Python 标准库即可运行规则推理;如提供 Kaggle 导出的 ONNX 包,可启用 ONNX Runtime 推理。

仓库结构

src/openubmc_aiops/        BMC 侧采集、特征、风险评分、根因解释和 CLI
kaggle/                   Kaggle GPU 训练/评估/导出脚本
deployment/               openUBMC 集成与 systemd 示例
docs/                     设计文档、测试报告、提交清单
tests/                    标准库 unittest 轻量验证
examples/                 示例 CSV 和 demo 输出目录

本地只做轻量验证

python -m pip install -e .
python -m unittest discover -s tests
python -m openubmc_aiops simulate --mode cooling_degradation --print

训练和模型部署演示请在 Kaggle 执行:

cd /kaggle/working/openUBMC
python kaggle/make_openubmc_dataset.py --output /kaggle/working/dataset
python kaggle/train_self_built_tiny_mlp.py --dataset /kaggle/working/dataset/openubmc_windows.npz --output /kaggle/working/edge_bundle
python kaggle/deploy_inference_api.py --bundle /kaggle/working/edge_bundle

完整操作见 kaggle/README.mddocs/SUBMISSION.md

关于
121.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802047560号