iSlot官方网站

iSlot官方网站 - 引领潮水

中文

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

登录

iSlot官方网站 - 引领潮水

产品

< 返回主菜单

产品

解决规划

< 返回主菜单

解决规划中心

行业

服务支持

合作同伴

关于iSlot官方网站

投资者关系

返回主菜单

选择区域/说话

iSlot官方网站 - 引领潮水

您订阅的产品有更新，请实时查阅

查看详情

iSlot官方网站网络高机能网络规划，为AIGC买通 “任督二脉”

iSlot官方网站 - 引领潮水

颁布功夫：2023-03-20

iSlot官方网站 - 引领潮水

引言

AIGC（AI-Generated Content，人为智能出产内容）近期发展迅猛，迭代速度更是出现指数级的发作式增长。其中，GPT-4和文心一言的推出引起了人们对其贸易价值和利用场景的高度关注。随着AIGC的发展，训练模型参数规模从千亿到万亿级别，底层GPU支持规模也达到了万卡级别。由此导致的网络规模不休增大，网络节点间通鸭对着越来越大的挑战。在此布景下，若何提升AI服务器推算能力和组网通讯能力并两全成本，已成为当前人为智能领域的沉要钻研方向之一。

iSlot官方网站网络针对AIGC算力、GPU利用率与网络的关系，以及主流HPC组网面对的挑战，推出了业界先进的“智速”DDC（Distributed Disaggregated Chassis，散布式分散式机箱）高机能网络规划，为AIGC业务买通“任督二脉”，助力算力突飞猛进。

iSlot官方网站 - 引领潮水

iSlot官方网站网络DDC产品衔接方式示意图

AIGC算力、GPU利用率与网络的关系

ChatGPT的训练功夫和GPU利用率的关系

以ChatGPT为例，在算力方面，使用微软Azure AI超算基础设施（由10000块 V100 GPU组成的高带宽集群）上进行训练，总算力亏损约3640PF-days（即每秒一千万亿次推算，运行3640天），这里做个公式换算一下10000块V100必要训练多久：

iSlot官方网站 - 引领潮水

ChatGPT算力和训练功夫表

注：ChatGPT算力需要为网上获取，在此仅供参考。OpenAI 在他们的文章“AI and Compute”中如果利用率为 33%。NVIDIA、斯坦福和微软的一组钻研人员在散布式系统上训练大型说话模型的利用率达到了 44% 到 52%。

iSlot官方网站 - 引领潮水

ChatGPT关于训练功夫的回覆

凭据ChatGPT的回复来看，比力切合上面表格推算出来的功夫，利用率应该会在50%左右。

能够看出影响一个模型的训练时长重要成分在于GPU的利用率，以及GPU集群处置能力。而这些关键指标又与网络效能亲昵有关。网络效能是影响AI集群中GPU利用率的一个沉要成分。在AI集群中，GPU通常是推算节点的主题资源，由于它们能够高效地处置大规模的深度进建工作。然而，GPU的利用率受到多个成分的影响，其中网络效能是一个关键成分。

网络效能与GPU利用率的关系

网络在AI训练中表演着至关沉要的角色。AI集群通常由多个推算节点和存储节点组成，这些节点必要频仍地进行通讯和数据互换。若是网络效能低下，这些节点之间的通讯将会变得缓慢，这将直接影响到AI集群的算力。

低效的网络可能导致以下问题，从而降低GPU利用率：

数据传输功夫增长：在低效的网络中，数据传输的功夫将会增长。当GPU必要期待数据传输实现后能力进行推算时，GPU利用率将会降低；

网络带宽瓶颈：在AI集群中，GPU通常必要频仍地与其他推算节点进行数据互换。若是网络带宽不及，GPU将无法获得足够的数据进行推算，从而导致GPU利用率降低；

工作调度不平衡：在低效的网络中，工作可能会被分配到与GPU分歧的推算节点上。当必要大量的数据传输时，这可能会导致GPU闲置期待，从而降低GPU利用率。

为了提高GPU利用率，必要优化网络效能。这能够通过选取更快的网络技术、优化网络拓扑结构、合理配置带宽等步骤来实现。在训练模型中，散布式训练的并行度：数据并杏注张量并行与流水并行决定了GPU处置的数据之间的通讯模型。模型之间的通讯效能受到以下几个成分的影响：

iSlot官方网站 - 引领潮水

影响通讯的成分

其中，带宽和设备转发时延受到硬件限度，端处置时延受技术选择（TCP or RDMA）影响，RDMA会更低，列队和沉传则受到网络优化和技术选择的影响。

凭据量化模型[1]：GPU利用率 = GPU内迭代推算功夫/（GPU内迭代推算功夫+网络总体通讯功夫）来推算得出以下结论：

iSlot官方网站 - 引领潮水

带宽吞吐与GPU利用率的曲线图动态时延和GPU利用率的曲线图

能够看到网络带宽吞吐、动态时延（拥塞/丢包）对GPU利用率影响显著。

凭据通讯总时延的组成来看：

iSlot官方网站 - 引领潮水

通讯总时延组成图

静态时延相较之下影响更幼，所以更应该着沉去思考若何削减动态时延，这样能够有效的提升GPU的利用率，从而达到提升算力的指标。

主流HPC组网面对的挑战

IB组网昂贵且封关

Infiniband组网是当前高机能网络的成效最优解，利用超高带宽和基于Credit的机造确保无拥塞和超低时延，但是也是最昂贵的解法，相比同带宽下传统以太网的组网会贵数倍。同时Infiniband技术封关，业内目前成熟供给商仅1家，对于最终用户来说，无法实现第二货源。

所以业内大无数用户会选择传统以太网组网的规划。

PFC和ECN可能触发降速

当前高机能网络主流组网规划是基于RoCE v2来组建支持RDMA的网络。其中沉要的两项搭配技术是PFC和ECN，两者均是为了预防链路中的拥塞而产生的技术。

多级PFC组网下会针对互换机入口（Ingress）拥塞，逐级反压到源端服务器暂停发送，缓解网络拥塞，躲避丢包；但该规划在多级组网下可能会晤对PFC Deadlock导致RDMA流量终场转发的风险。

图片 iSlot官方网站 - 引领潮水

PFC工作机造示意图

而ECN则会基于对互换机出口（Egress）拥塞的主张端感知，直接天生一个RoCEv2 CNP包通知源端降速，源服务器收到CNP报文，精准降低对应QP的发送速度，缓解拥塞的同时预防无差距降速。

iSlot官方网站 - 引领潮水

ECN象征位示意图

这两项技术自身并没有什么问题，都是为相识决拥塞而诞生的技术，但是选取这种技术后可能会被网络中可能产生的拥塞而频仍触发，最终会导致源端暂；蚪邓俜⑺，通讯带宽会降低，会对GPU利用率产生比力大的影响，从而造成整个高机能网络的算力被拉低。

ECMP不平衡可能会导致拥塞

在AI训练推算中会有All-Reduce和All-to-All两种重要的模型，两种模型都必要频仍的从一个GPU到另表多个GPU进行通讯。

iSlot官方网站 - 引领潮水

All-to-All模型 All-Reduce模型

在传统组网下，ToR和Leaf设备选取路由+ECMP的组网模式，ECMP会基于流进行哈希负载选路，有一种极端情况就是某一条ECMP链路由于一条大象流而跑满，其余多条ECMP链路相对空闲，造成负载不均的情况。

iSlot官方网站 - 引领潮水

传统ECMP部署图

在内部仿照8条ECMP链路的测试环境下，测试了局如下：

iSlot官方网站 - 引领潮水

ECMP流量测试了局

能够看出，基于流的ECMP会造成较显著的某几条链路占用（ECMP1-5和1-6）和空闲（ECMP1-0至1-3较空闲），而在All-Reduce和All-to-All的两种模型下，就很容易造成一条路线由于ECMP的负载不均而拥塞，一旦拥塞造成沉传，就会提升总体的通讯总时延，从而降低GPU利用率。

所以，为相识决此类问题，钻研界提出了phost、Homa、NDP、1RMA 和 Aeolus等丰硕的解决规划，它们在分歧水平上解决了 incast，还解决了负载平衡和低延长要求/响应流量的问题。但是也带来了新的挑战，往往这些钻研的规划都是必要端到端来解决问题，对主机、网卡、网络的扭转较大，对于通常用户而言，成本较高。

框式互换机组AI集群的挑战

海表有部门互联网公司寄但愿于利用选取DNX芯片支持VOQ技术的框式互换机来解决负载不平衡带来的带宽利用率低的问题，但也面对以下几个挑战。

扩大能力通常，机框大幼限度了最大端口数，如想做更大规模的集群，必要横向扩大多个机框，也会产生多级PFC和ECMP的链路，所以框只适合于幼规模部署；

设备功耗大，机框内线卡芯片、Fabric芯片、电扇等数量多多，单设备的功耗极大，轻松超过2万瓦，有的甚至3万多瓦，对机柜电力要求高；

单设备端口数量多，故障域大。

所以基于以上原因，框式设备只适合幼规模部署AI推算集群。

新状态DDC产品诞生，支持AIGC高机能网络

DDC是一种散布式解耦机框设备的解决规划，选取的芯片和关键技术与传统框式互换机险些一样，但DDC架构单一支持弹性扩大和职能急剧迭代、更易部署、单机功耗低。

如下图所示，业务线卡作为前端成为NCP角色，互换网板作为后端成为NCF角色，原先两者之间的衔接器组件此刻被光纤线缆包办，原有框式设备的治理引擎在DDC架构中也成为了NCC集中/散布式的治理组件。

iSlot官方网站 - 引领潮水

DDC产品衔接方式示意图

DDC支持超大规模部署

DDC架构相较于框式架构的优势在于能够提供弹性可扩大性，组网规Ｄ芄黄揪軦I集群大幼来矫捷选择。

单POD组网中，选取96台NCP作为接入，其中NCP下行共36个200G接口，掌管衔接AI推算集群的网卡。上行共40个200G接口最大能够衔接40台NCF，NCF提供96个200G接口，该规模高低行带宽为超速比1.1:1。整个POD可支持3456个200G网络接口，依照一台服务器配8块GPU来推算，可支持432台AI推算服务器。

iSlot官方网站 - 引领潮水

单POD组网架构图

多级POD组网中，能够实现基于POD的按需建设。由于该场景POD中NCF设备要就义一半的SerDes用于衔接第二级的NCF，所以此时单POD选取48台NCP作为接入，下行共36个200G接口，单POD内能够支持1728个200G接口。通过横向增长POD实现规模的扩容，整体最大可支持10368多个200G网络端口。

NCP上行40个200G接POD内40台NCF，POD内NCF选取48个200G接口下行，48个200G接口分为16个一组上行到第二级的NCF。第二级NCF选取40个平面，每个平面3台的设计，别离对应在POD内的40台NCF。

整个网络的POD内实现了超速比1.1:1，而在POD和二级NCF之间实现了1:1的收敛比。

iSlot官方网站 - 引领潮水

200G的网络端口兼容100G网卡接入，特殊情况下可利用1分2或1分4线缆兼容25/50G网卡。

基于VOQ+Cell机造负载更平衡，丢包率更低

依附吩飕后的Cells转发机造进行动态负载平衡，实现延长的不变性，降低了分歧链路的带宽峰值差。

转发流程如图所示：

首先发送端从网络中接管数据包并分类到VOQs中存储，在发送数据包之前会先发送Credit报文确定接管端是否有足够的缓存空间处置这些报文；

若是能够则将数据包吩飕成Cells并且动态负载平衡到中央的Fabric节点。这些Cells在接管端会进行沉组和存储，进而转发到网络中。

iSlot官方网站 - 引领潮水

Cells是基于数据包的切片技术，通常大幼为 64-256Byte。

切片后的Cells凭据reachability table 中 cell destination 的查问来决定若何转发，并选取轮询的机造发送。这样做的益处相比ECMP按流进行哈希推算后选择某一条路的模式，切片后的Cells负载会充分利用到每一条上行链路，所有上行链路的传输数据量会近似相称。

iSlot官方网站 - 引领潮水

若是接管端临时没能力处置报文，报文会在发送端的VOQ中暂存，并不会直接转发到接管端导致丢包问题的产生，每片DNX芯片能够提供芯片内OCB缓存以及片表8GB的HBM高速缓存，对200G端口相当于能够缓存150ms左右的数据。只有当对端Credit报文化确能够接受时才会发送。这样的机造下，充分利用缓存能够大幅度削减丢包，甚至不会产生丢包情况。削减数据沉传，整体通讯时延更不调换低，从而能够提高带宽利用率，进而提升业务吞吐效能。

iSlot官方网站 - 引领潮水

PFC单跳部署下不会产生死锁

依照DDC的逻辑来看，所有NCP和NCF能够当作一台设备，所以在此网络中部署RDMA域后，只在针对服务器的接口处存在1级的PFC，不会像传统网络一样产生多级PFC的压造与死锁。另表凭据DDC的数据转发机造，可在接口处部署ECN，一旦在内部的Credit缓和存机造无法支持突发流量，能够向服务器端发送CNP报文要求降速（通常情况下在AI的通讯模型下，All-to-All和All-Reduce+Cell切片能够将流量尽可能的平衡，很难出现1个端口被打满的情况，所以ECN在无数情况能够不配置）。

iSlot官方网站 - 引领潮水

无NCC设计，选取散布式OS提升靠得住性

在治理节造平面上，为相识决治理网故障以及NCC单点故障的影响，我们取缔了NCC的集中节造面，构建了散布式OS，通过SDN运维节造器通过尺度接口（Netconf、GRPC等）配置治理设备，每台NCP和NCF独立治理，有独立的节造面和治理面。

测试对比了局

从规划理论上说，DDC占有支持弹性扩大和职能急剧迭代、更易部署、单机功耗低等多多优势；但从现实角度启程，传统组网也占有诸如市面可选品牌和产品路线较多、可支持更大规模的集群等技术成熟带来的优势。因而在客户面对项目需要时到底是选择更高机能的DDC，还是更大规模部署的传统组网，能够参考下面的对比及测试了局：

iSlot官方网站 - 引领潮水

传统组网与DDC测试对比了局图

同时我们使用OpenMPI测试套件进行了框式设备（框式设备和DDC道理一样，本次选取框式测试）和传统组网设备的对比仿照测试，结论是在All-to-All场景下，相较于传统的组网，框式设备带宽利用率提升约20%（对应GPU利用率提升8%左右）。

iSlot官方网站 - 引领潮水

框式设备和传统组网设备的对比仿照测试

iSlot官方网站设备介绍

基于对客户需要的深刻理解，iSlot官方网站网络已经率先推出了两款可交付产品，别离是200G NCP互换机和200G NCF互换机。

NCP：RG-S6930-36DC40F1互换机

该互换机2U高度，提供36个200G的面板口，40个200G的Fabric内联口，4个电扇和2个电源。

iSlot官方网站 - 引领潮水

NCF：RG-X56-96F1互换机

该互换机4U高度，提供96个200G的Fabric内联口，8个电扇和4个电源。

iSlot官方网站 - 引领潮水

将来iSlot官方网站网络还会持续研发、推出400G端口状态产品，敬请等待。

结语

iSlot官方网站网络（证券代码：301165）作为行业辅导者，一向致力于提供高品质、高靠得住性的网络设备和解决规划，以满足客户对于智算中心不休提高的需要。在推出“智速“DDC解决规划的同时，iSlot官方网站网络也在积极索求和开发传统组网中的端网优化规划，通过充分利用服务器智能网卡搭配网络设备和谈的优化，实现整网带宽利用率提升，援手客户更快迎来AIGC智算时期。

参考文件：

[1]Deepak Narayanan, Mohammad Shoeybi, Jared Casper，Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM，arXiv:2104.04473v5 [cs.CL] 23 Aug 2021

关注iSlot官方网站

: 关注iSlot官方网站官网微信
随时相识公司最新动态

成功案例

查看更多

最新动态

查看更多

有关视频

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

查看更多

售前征询
售后服务
定见反馈

iSlot官方网站 - 引领潮水

返回顶部

收起

文档AI副手

文档评价

该资料是否解决了您的问题？

您对当前页面的中意度若何？

不咋滴

极度好

您中意的原因是（多。？

您对文档是否还有其它的问题或建议？

为尽快解决问题，请您留下联系方式以便回复

邮箱

手机号

ev-bg

感激您的反。

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

请选择服务项目

售前征询

售后服务

定见反馈

更多联系方式

【网站地图】