Update Reference
2025.12.22: 我们发布了技术报告。
2025.11.14: 我们开源了MiMo-VL-Miloco-7B 和它的量化版本MiMo-VL-Miloco-7B-GGUF。
欢迎体验Xiaomi MiMo-VL-Miloco开源项目——首个开源的、多模态的家庭场景理解大模型!
我们精心设计了两阶段优化策略,在保持模型基础的通用能力的同时,大幅提升模型的家庭场景理解能力。
我们首先关注如何提升模型在家庭场景中的理解能力。通过构建少量高质量的数据集,我们在模型高效学习与推理效率之间取得了良好的平衡。
在监督微调的基础上,我们引入基于GRPO的强化学习算法来提升模型的综合性能:
简而言之:Xiaomi MiMo-VL-Miloco 就像你的模范室友——既友善又目光敏锐,擅长识别家中的日常事务,同时依然能适应更广阔的世界。
模型权重及其量化版本均已开源:
在家庭场景理解下,我们重点关注的是视频、图像感知能力,以及模型的推理能力。
模式切换的方式我们遵循MiMo-VL系列的通用做法。用户可以通过在请求语句的末尾加入/no_think 标识符以退出思考模式。
/no_think
"Explain the relationships between the objects in the image and infer the likely next action."
"Transcribe the handwritten note exactly as shown. /no_think"
pip install -r requirements.txt
cd demo CKPT_PATH="checkpoint_path" python app.py
您可以在用户界面上点击“智能家居模式”从通用模式切换至家庭场景模式。
@misc{xiaomimimovlmiloco, title={Xiaomi MiMo-VL-Miloco Technical Report}, author={Jiaze Li, Jingyang Chen, Yuxun Qu, Shijie Xu, Zhenru Lin, Junyou Zhu, Boshen Xu, Wenhui Tan, Pei Fu, Jianzhong Ju, Zhenbo Luo, Jian Luan}, year={2025}, eprint={2512.17436}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.17436}, }
欢迎通过邮箱联系我们:milm-plus@xiaomi.com。如果您有任何问题,可以随时在issue中提问。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
🔥🔥🔥 消息
2025.12.22: 我们发布了技术报告。
2025.11.14: 我们开源了MiMo-VL-Miloco-7B 和它的量化版本MiMo-VL-Miloco-7B-GGUF。
介绍
欢迎体验Xiaomi MiMo-VL-Miloco开源项目——首个开源的、多模态的家庭场景理解大模型!
🤗 核心亮点
🌟 训练笔记
我们精心设计了两阶段优化策略,在保持模型基础的通用能力的同时,大幅提升模型的家庭场景理解能力。
阶段 一: 监督微调 (SFT)
我们首先关注如何提升模型在家庭场景中的理解能力。通过构建少量高质量的数据集,我们在模型高效学习与推理效率之间取得了良好的平衡。
阶段 二: 强化学习 (RL)
在监督微调的基础上,我们引入基于GRPO的强化学习算法来提升模型的综合性能:
简而言之:Xiaomi MiMo-VL-Miloco 就像你的模范室友——既友善又目光敏锐,擅长识别家中的日常事务,同时依然能适应更广阔的世界。
😉 模型指南
模型权重及其量化版本均已开源:
MiMo-VL-Miloco-7B
MiMo-VL-Miloco-7B-GGUF
性能表现
家庭场景理解能力评估 (F1-Score)
通用能力评估
在家庭场景理解下,我们重点关注的是视频、图像感知能力,以及模型的推理能力。
部署
思考模式切换
模式切换的方式我们遵循MiMo-VL系列的通用做法。用户可以通过在请求语句的末尾加入
/no_think标识符以退出思考模式。Gradio部署
家庭/通用模式切换
您可以在用户界面上点击“智能家居模式”从通用模式切换至家庭场景模式。
引用
联系方式
欢迎通过邮箱联系我们:milm-plus@xiaomi.com。如果您有任何问题,可以随时在issue中提问。