小米发布首个推理大模型 Xiaomi MiMo

小米于2025年4月30日正式开源其首个专注推理能力的大模型——Xiaomi MiMo，标志着其在人工智能领域的重要布局。该模型以“Reasoning”为核心目标，旨在提升模型在数学推理和代码生成等复杂任务中的表现。

• 轻量级高性能：MiMo 仅使用 70 亿参数（7B），在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）等权威测评中，超越了 OpenAI 的闭源模型 o1-mini 以及阿里巴巴的 Qwen-32B-Preview 等更大规模模型，展现出“小而强”的特性。
• 创新训练策略：
- • 预训练阶段：聚焦于推理相关语料，合成约 2000 亿 tokens 的推理数据，并采用三阶段训练策略，逐步提升训练难度，总训练量达 25 万亿 tokens。
- • 后训练阶段：引入改进的组相对策略优化（GRPO）算法，移除 KL 散度损失，采用动态采样和上界裁剪策略，并提出“测试难度驱动奖励机制”，根据测试用例的难度分配奖励，从而提升模型的推理能力。
• 多版本开源：MiMo 提供了四个模型版本，分别是预训练模型 MiMo-7B-Base、监督微调模型 MiMo-7B-SFT、强化学习模型 MiMo-7B-RL 以及 MiMo-7B-RL-Zero，已全部开源至 Hugging Face，方便开发者获取和使用。

MiMo 的发布不仅是小米在 AI 模型领域的首次亮相，也显示出其在人工智能领域的雄心。据报道，小米正在建设万卡 GPU 集群，并引入顶尖 AI 人才，显示出对大模型领域的全面投入。

开发者可通过 Hugging Face 平台获取 MiMo 的各个模型版本，进行下载和部署。此外，小米也发布了相关的技术报告，详细介绍了 MiMo 的架构设计、训练策略和性能评估，供研究人员和开发者参考。