iSlot官方网站

iSlot官方网站 - 引领潮水

中文

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

登录

iSlot官方网站 - 引领潮水

产品

< 返回主菜单

产品

解决规划

< 返回主菜单

解决规划中心

行业

服务支持

合作同伴

关于iSlot官方网站

投资者关系

返回主菜单

选择区域/说话

iSlot官方网站 - 引领潮水

您订阅的产品有更新，请实时查阅

查看详情

首页
技术博文
互换机
解密DeepSeek-V3推理网络：MoE架构若何沉构低时延、高吞吐需要？

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

解密DeepSeek-V3推理网络：MoE架构若何沉构低时延、高吞吐需要？

DeepSeek-V3颁布推动散布式推理网络架构升级，MoE模型引入大规模专家并行通讯，推理流量特点显著变动，Decode阶段对网络时度敏感。网络需保险低时延与高吞吐，通过端网协同负载平衡与拥塞节造技术优化机能。高效运维实现故障急剧定位与业务高可用，单轨双平面与Shuffle多平面组网规划在低成本下满足高机能推理需要，为大规模MoE模型部署提供主题网络支持。

#互换机

颁布功夫：2025-10-27
点击量：
点赞：

分享至

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

我想评论

一、推理场景和MoE模型引入网络新诉求

2025岁首，DeepSeek-V3颁布，迅速引发国内表的宽泛关注和部署热潮。作为主题基础设施之一，散布式推理网面对全新的需要。整体来看，推理与训练的流量差距、MoE模型架构的引入以及DeepSeek开源技术规划等多沉成分，影响了网络建设的方向和要求。

传统浓密模型的训练与推理流量中，95%以上为Tensor Parallel（TP）通讯，重要在机内高带宽域通过all-reduce实现，机表低带宽域仅在同号卡间执行低流量的数据并行（DP）和流水线并行（PP）通讯。而DeepSeek选取的MoE（Mixture of Experts）模型架构显著扭转了流量特点。训练和推理阶段均不选取TP通讯，取而代之的是大规模专家并行（EP）通讯，训练阶段EP流量占比超过95%，推理阶段则达到100%。EP通讯逾越多个凹凸带宽域，且选取all-to-all通讯模式，通讯结构复杂且流量巨大，对网络机能提出了更高、更差距化的要求。

DeepSeek模型参数规模达到6710亿，在推理部署中引入了PD分离和大规模EP并行，推动满血版高机能推理走向散布式。相比传统单机推理，散布式推理带来了显著差距，使得推理流量模式与散布式训练更为靠近，但两者在流量特点上依然存在显著区别。

通讯流量可由以下公式估算：（minibatch大幼 × 高低文长度 × 暗藏层维度）× 节点数 × （dispatch_alltoall通讯次数 × FP8字节数 + combine_alltoall通讯次数 × BF16字节数）× GPU掌管的层数。下表统计重要EP流量作为参考。

	总通讯量	单次通讯量
训练	315GB	dispatch：112MB combine：224MB
推理Prefill	57.09GB	dispatch：168MB combine：336MB
推理Decode	1218MB	dispatch：3.5MB combine：7MB

训练场景流量模式固定且明确，单次迭代总流量高达315GB，单次EP通讯流量约112MB。

推理场景流量受用户输入影响，颠簸较大。Prefill阶段以4K高低文、batch size为4推算流量大幼，单次迭代总流量约57.09GB，单次通讯流量与训练相近；Decode阶段以128并发推算，单次迭代流量显著降低至约1.2GB，单次通讯流量仅为几MB，Prefill与Decode阶段流量差距显著。

基于以上全新且复杂的网络需要，深刻鉴别和分析DeepSeek推理网络的关键技术，是保险推理高机能、低成本与高靠得住性的关键。下文我们将从低网络时延、高效网络运维和低成本组网角度，发展介绍DeepSeek推理网络关键技术。

二、低时延网络助力推理高吞吐

凭据上述流量分析，Decode阶段的单次通讯流量仅为3.5MB/7MB。结合DeepSeek官方开源通讯库DeepEP的机能，当前场景下Decode阶段的dispatch通讯时长在100us内，combine通讯时长在200us内。Decode阶段的SLO通常要求低于50ms，但EP通讯次数高达116次，每次通讯城市导致时延叠加，因而对网络时延提出了很高的要求。综上，在Decode阶段，很少的单次通讯流量、很短的通讯时长、很高的SLO要求都对网络提出了较低的时延需要。

iSlot官方网站 - 引领潮水

H800网络时延对Decode吞吐的影响

iSlot官方网站 - 引领潮水

H20网络时延对Decode吞吐的影响

上图是对4K/1K高低文，1K输出的Decode场景，在H800/H20设备下，以128 batch作为场景，进行的网络时延对Decode吞吐影响仿真。如图所示，当网络侧产生1ms的时延增长时，无论是H800还是H20，在分歧的高低文场景下，吞吐城市产生巨大影响，吞吐降落幅度高达80%左右，险些已经直接导致当前Decode节点不成用。当网络上产生100us的时延时，4K高低文场景下，吞吐降落可能达到20%+。由此可见，Decode节点对网络时延的敏感度很高。在DeepSeek大规模EP并行all-to-all通讯模式下，网络时延的重要影响成分是负载平衡和拥塞节造：

iSlot官方网站 - 引领潮水

如上图所示，在大规模EP的DeepSeek推理场景，EP域的通讯可能横跨多个Leaf，流量走向Spine，容易产生典型的ECMP哈希不均问题，导致较高动态时延。且DeepSeek的MoE模型推理易产滋事俘间负载不一致和事俘内专家负载不一致问题，在网络上阐发为流量中大幼流混合。该景象更容易加剧ECMP不均导致的动态时延问题，欠安的负载平衡战术，在网络上容易引入100us+甚至更高的动态时延。如上文分析，这样的动态时延水平对吞吐的影响可能达到20%+。在DeepSeek官方场景中，选取IB互换机和CX网卡的Adaptive Routing（AR）技术，有效缓解了ECMP负载不均问题。在RoCE环境下，端网协同的负载平衡规划在如此刻薄的低时延要求下，是至关沉要的。

iSlot官方网站 - 引领潮水

此表，MoE模型的大规模专家并行通讯性质上是一种all-to-all模式，网络中天然存在incast流量。合理的拥塞节造战术可能预防因流量降速或PFC（Priority Flow Control）触发而带来的高动态时延，保险网络时延的不变性和推理机能。

三、高效端网运维保险高可用推理业务

iSlot官方网站 - 引领潮水

慢故障、hang异常

iSlot官方网站 - 引领潮水

链路故障

随着DeepSeek推理引入大规模专家并行（EP），散布式推理集群面对与训练集群类似的故障挑战。凭据Meta公开的钻研数据，以1024卡集群为例，均匀每7.9幼时会产生一次故障。结合故障对推理的影响，可将故障类型综合为三类：

慢节点异常：故障产生后推理工作不中断，但部门节点或阶段机能降落，导致整体推理被拖慢，阐发为慢节点效应。

Hang异常：故障导致推理长功夫卡顿于某一阶段，工作无法持续推动，但整体推理仍未中断。

链路故障：链路中断直接导致整个推理事俘退出。

在慢节点异常和短功夫Hang异常场景下，固然推理工作仍在运行，但推理机能显著受损，TTFT（Time To First Token）和TPOT（Time Per Output Token）指标显著恶化，吞吐量可能降落50%以上。因而，针对慢故障和Hang异常的实时监控、急剧定位与排查，对于保险推理机能拥有沉要价值。

而在长功夫Hang异；蛄绰饭收系贾峦评硎路苯油顺龅那榭鱿，业务影响更为严沉。对于大规模事俘部署环境，可通过要求急剧切换至其他健全事俘，虽可能就义部门用户履历，但能保险业务陆续性。相较之下，少量事俘部署（如单个Decode事俘）产生故障时，往往直接导致业务中断，严沉影响不变性和用户履历。因而幼规模场景下，故障的定位、逃生和躲避，是保险业务可用性的关键伎俩。

四、高性价比推理组网压榨百万token成本

1.双口网卡双平面组网：

iSlot官方网站 - 引领潮水

单轨双平面组网

基于上述对网络低时延和高靠得住性的需要，选取如图所示的单轨双平面组网规划，可能最大水平保险机能与靠得住性。相比传统CLOS架构，该规划在性价譬喻面更具优势。具体特点如下：

优势：

网络结构简洁：流量集中于Leaf互换机，降低跨互换机通讯复杂度，显著削减时延。

成本效益高：支持铜缆互联，削减互换机数量，整体网络投入更低。

时延低：数据面链路最长仅为2跳，最大跳数为1跳，确保低时延传输。

流控需要低：无负载平衡问题，流量走单一蹊径，简化流控设计。

易于扩大：新增节点无需增长二层网络，支持集群横向扩大。

Bond适配性强：选取bond双平面组网提升网络靠得住性，且由于无二层组网，bond规划不会带来额表互换机成本。

劣势：

矫捷性受限：Prefill或Decode事俘不成跨Leaf部署，单事俘最大规模受限于256卡。

兼容性不及：组网针对推理流量个性优化，难以兼容训练与推理一体化场景。

KV Cache传输依赖存储网：在选取PD分离部署时，若是存在跨Leaf的PD事俘，则必须建设存储网络以支持KV Cache传输。

2.Shuffle多平面组网：

iSlot官方网站 - 引领潮水

基于双网口网卡的双平面组网规划，单Pod最大规模受限于256卡，导致矫捷性不及。为突破这一瓶颈，在Server与互换机之间引入Shuffle(光交叉盒)，实现物理层面的分光。依附400Gbps网卡和TH5芯片互换机，组网规划升级为四平面，单Pod最大规模扩大至512卡，满足绝大无数推理部署需要。此规划支持更大规模的EP并行和PD事俘数量增长，且PD事俘无需跨Pod调度，大幅提升Pod内组网矫捷性，显著降低对KV Cache存储网络的依赖。

将来，随着800Gbps网卡和TH6芯片互换机的利用，Shuffle多轨规划可拓展至8轨。在保障单GPU享有800Gbps带宽的前提下，单Pod最大规？衫┐笾1024卡，满足超大规模推理服务需要。该规划在无二层组网架构下，依然提供很高的PD分离部署矫捷性，PD事俘无需跨Pod调度，也无需KV Cache传输专用网络，实现了卓越的性价迸纂机能。

总结

DeepSeek MoE模型的散布式推理部署带来了推理网络架构和机能保险的全新挑战。推理阶段的通讯模式和流量特点与传统训练存在显著差距，尤其是Decode阶段对网络时延敏感，要求网络具备低时延和高吞吐能力。端网协同的负载平衡算法和拥塞节造技术是保险网络机能的关键。与此同时，推理业务高可用性要求美满的故障监控、急剧定位和故障逃生战术。针对这些需要，设计简洁高效且具备高靠得住性的单轨双平面组网规划，可能在保障机能的同时降低成本。将来，随着DeepSeek及类似大规模MoE模型的宽泛部署，推理网络的优化和创新将成为主题竞争力。

有关标签：

#互换机

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

点赞

<< 高密场景无线网络新解法：iSlot官方网站Wi-Fi 7 AP 与龙伯透镜天线正式成团

暂无下一笔纪录 >>

客户评论

no-data

暂无评论

我要评论

您的姓名

您的手机号*

您的邮箱

公司名称

您的评论*

我已仔细阅读并赞成隐衷申明

验证码*

verificationcode?key=techMessage

提交评论

更多技术博文

任何必要，请联系iSlot官方网站

与售前照拂交谈

填写项目需要表单

售前征询
售后服务
定见反馈

iSlot官方网站 - 引领潮水

返回顶部

收起

文档AI副手

文档评价

该资料是否解决了您的问题？

您对当前页面的中意度若何？

不咋滴

极度好

您中意的原因是（多。？

您对文档是否还有其它的问题或建议？

为尽快解决问题，请您留下联系方式以便回复

邮箱

手机号

ev-bg

感激您的反。

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

请选择服务项目

售前征询

售后服务

定见反馈

更多联系方式

【网站地图】