DeepSeek 开源周第6天:揭秘DeepSeek-V3/R1高效推理系统:如何实现高吞吐与低延迟

为什么需要突破性优化?

作为拥有256专家的MoE大模型,DeepSeek-V3/R1每次推理仅激活8个专家,这种高稀疏性带来了独特的工程挑战。传统单卡推理面临两个致命问题:专家计算批次过小导致GPU利用率低下,以及显存带宽成为性能瓶颈。我们的解决方案是:跨节点专家并行(EP)架构,通过突破性的系统设计实现每秒数万亿token的吞吐能力。

三大核心技术突破

一、超大规模专家并行架构

动态分级并行策略

  • 预填充阶段:采用EP32+DP32混合并行
    • 4节点部署单元管理32个冗余路由专家
    • 单GPU处理9个路由专家+1个共享专家
  • 解码阶段:升级至EP144+DP144
    • 18节点部署单元管理32个冗余路由专家
    • 单GPU仅需处理2个路由专家+1个共享专家

这种动态扩展能力使得单次推理的总体批次规模可达常规方案的18倍,专家计算批次充足性提升9倍。

这种动态扩展能力使得单次推理的总体批次规模可达常规方案的18倍,专家计算批次充足性提升9倍。

智能负载均衡体系

负载类型预填充阶段优化解码阶段优化
核心注意力计算基于序列长度的动态分配KVCache使用量均衡
通信负载令牌级负载均衡请求数均衡
专家计算专家热度感知调度跨节点专家负载迁移

通过实时监测系统,我们在278个节点的集群中实现了<5%的负载差异率。

二、通信-计算流水线魔术

双微批次交错执行

将推理请求拆分为两个微批次交替执行,使得通信延迟完全隐藏在另一个微批次的计算时间内。实测显示,这种设计将H800集群的通信开销从23%降至4%以下。

五级流水解码优化

<PYTHON># 解码阶段五级流水示意
for token in output_sequence:
    stage1: 注意力层前半计算
    stage2: 跨节点专家结果聚合
    stage3: 注意力层后半计算
    stage4: MLP专家计算
    stage5: 结果回传

通过将注意力层拆分为两个计算阶段,配合智能流水控制,即使在解码阶段也能保持92%以上的计算利用率。

三、超异构资源调度系统

弹性资源调配

  • 日间高峰:278节点全负载(2224块H800)
  • 夜间低谷:自动缩容至1/3规模,释放资源用于训练
  • 混合精度策略
    • 矩阵乘法/通信:FP8(与训练精度对齐)
    • 核心计算:BF16(保持高精度)

成本效益奇迹

指标24小时统计值
总输入token6080亿(56.3%缓存命中)
总输出token168亿
单节点吞吐7.37万token/s(输入)
理论日营收$56.2万
实际运营成本$8.7万
成本利润率545%

未来演进方向

当前系统已在H800集群上实现单日超6000亿token的处理能力,但我们在以下方向持续突破:

  1. 专家动态迁移:实现跨物理节点的专家热迁移
  2. 三维混合并行:EP+TP+DP的立体化组合
  3. 量子化内存压缩:研发8bit KV Cache技术

已发布

分类

来自

标签: