iSlot官方网站

从尺度到落地:万兆园区 ,选以太彩光 丨 《万兆园区以太彩光钻研汇报》技术钻研会
date
预约直播
AI时期 ,医疗网络怎么建 丨 iSlot官方网站医疗极简以太彩光双超融合网络解决规划颁布
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新 ,请实时查阅

查看详情
iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

技术盛宴 | 端侧链路故障逃生技术 ,破解万亿级大模型训练中断难题

针对万亿级大模型散布式训练中的端侧链路故障导致的训练中断与算力损失难题 ,iSlot官方网站网络推出基于NCCL的端侧链路故障逃生规划。该规划选取备份链路与非侵入式设计 ,实现毫秒级故障鉴别与秒级切换 ,保险训练陆续不中断 ,有效降低AI训练集群的硬件故障成本与算力浪费。

  • iSlot官方网站 - 引领潮水

    颁布功夫:2025-09-03

  • iSlot官方网站 - 引领潮水

    点击量:

  • iSlot官方网站 - 引领潮水

    点赞:

分享至

iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水

我想评论

iSlot官方网站 - 引领潮水

布景

近年来 ,随着人为智能技术的迅猛发展 ,机械进建模型的规模出现出发作式增长态势。尤其在深度进建领域 ,模型规模的显著提高成为推动诸多技术突破与机能提升的关键身分。当模型参数数量达到万亿级别时 ,受限于单台设备的物理资源而无法实现单机训练。为此 ,散布式训练技术应运而生 ,并迅速成为训练超大规模模型的主题伎俩。散布式训练可能显著提高训练效能 ,突破单机内存和推算能力的瓶颈。融合模型并行与数据并行等技术的散布式混归并行训练战术成为训练超大规模大说话模型的重要技术蹊径 ,该步骤不仅能有效利用大规模硬件资源 ,还能在确保训练不变性和模型机能的前提下 ,实现大说话模型的高效训练与部署。

一、网络故障

散布式训练是指在多个推算节点上协同作业 ,共同实现机械进建模型的训练过程。通过将训练工作拆分至多个设备上并行执行 ,不仅能合理分配推算和存储资源 ,也能显著提升训练速度 ,并且可能处置更大规模的数据和模型。

然而 ,训练过程中出现故障的可能性会随着训练规模和持续功夫的增长而升高。一旦产生故障 ,将使所有参加的设备处于闲置状态 ,直至故障设备复原正常 ,导致大量算力无法得到充分利用。来自Meta、HuggingFace和LAION的团队均汇报了在训练大型模型时因失败导致利用率严沉降落的情况。

凭据Meta团队训练Llama3.1的汇报 ,在训练期间均匀每三个颖厩会产生一次故障 ,其中约8.4%的故障是由网络设备故障导致的。分歧于其他由软件引发的故障 ,网络设备故障大多为硬件故障 ,例如网络线缆或是网卡光?榈抛布设备出现故障。相较于软件故障 ,硬件故障的处置难度大、复原功夫长 ,可能造成更大的算力损失。

iSlot官方网站 - 引领潮水

互换机设备间链路故障目前已可能实现毫秒级处置与收敛 ,但端侧网络设备故障目前尚无较为高效的处置规划。端侧设备故障重要蕴含服务器网卡故障、服务器与互换机的衔接线缆败坏以及线缆光?楣收系。随着推算集群规模持续扩大 ,端侧网络设备故障已成为亟待解决的问题。

二、故障处置

目前 ,除软件故障表 ,硬件故障的处置战术通常不分辨具体的故障类型 ,产生硬件故障时 ,通常选取一样的规划进行处置。

查抄点(Checkpoint)是一种常见的悠久化机造 ,用于保留训练进度。在故障产生后 ,系统会立即对故障设备进行建复 ,或者将故障设备从集群中剔除 ,而后从最近的查抄点加载模型并持续训练。目前 ,很多优化战术萦绕查抄点机造发展:

1.EasyCkpt 选取异步化、档次化的保留方式 ,结合沉叠模型拷贝与推算、网络感知的异步存储战术 ,实现了近乎零开销的模型保留机造 ,并保障了大模型训练过程中模型保留与复原的精度无损。

2.Gemini 可能将 Checkpoint 保留在拥有更大聚合带宽的 CPU 内存中 ,并通过一系列规划实现了大型模型训练的急剧故障复原。

只管如此 ,仍无法齐全预防因故障定位和模型训练沉启所带来的算力损失。

冗余推算(Redundant computation)能够预防沉新配置和沉新启动的开销 ,在进行模型训练时使用分歧的节点进行冗余推算。当某个节点产生故障时 ,其他节点可能包办故障节点进行推算 ,但是这样引入了固定的内存开销和推算开销 ,进一步增长了训练成本。

三、iSlot官方网站网络的端侧链路故障逃生

iSlot官方网站网络的端侧链路故障逃生是一种基于NCCL(NVIDIA Collective Communications Library)实现的端侧链路故障急剧躲避规划 ,可能在上层训练框架无感知的情况下 ,自动对端侧链路故障进行鉴别并处置 ,在模型训练过程中产生端侧链路故障时可能维持训练不中断 ,在故障设备实现建复后训练机能自动复原。

端侧故障逃生规划通过在NCCL参与故障鉴别以及故障躲避机造 ,并在创建数据链路时同步创建备份链路来处置由于硬件故障导致单条链路无法通讯的问题。

iSlot官方网站 - 引领潮水

备份链路在主链路状态正常时不会进行数据传输 ,对传输效能不产生任何影响。而在出现端侧链路故障之后 ,通过一系列切换机造将原链路上的通讯工作转移到备份链路进行传输。

iSlot官方网站 - 引领潮水

iSlot官方网站网络的端侧链路故障逃生规划拥有以下重要个性:

1.非侵入式

该规划不受特定训练框架的限度 ,也无需对上层框架进行批改。故障产生后 ,由NCCL自行处置 ,上层框架无感知。

2.急剧且靠得住

可能对端侧链路故障进行毫秒级的鉴别与定位 ,并对故障链路上的通讯工作进行急剧迁徙 ,可实现秒级收敛 ,并能保险通讯工作不中断。

3.可复原性

实时监测设备状态 ,若故障设备状态复原正常 ,可能在复原的设备上沉建通讯链路 ,并将其沉新纳入通讯设备集群。

iSlot官方网站网络的端侧链路故障逃生规划拥有以下几点关键收益:

1.提升系统靠得住性

使用端侧故障逃生规划可能有效预防因端侧网卡光膜线缆等设备产生故障而引起的训练业务中断 ,实现断链不休训 ,通讯的靠得住性提升10倍。

2.降低训练成本

可能有效预防训练集群因端侧链路故障而导致的算力资源浪费 ,同时基于自动故障复原处置机造确保网络设备实现最大利用率 ,从而显著降低训练成本。 凭据Meta颁布的训练日志(Llama 3.1 ,405B模型) ,在为期54天的预训练阶段 ,共出现419次意表中断情况 ,其中约8.4%是由网络故障所致。H100的算力建设用度约为10元/卡/幼时 ,若每次中断复原需耗时1幼时 ,那么万卡集群每次训练因网络故障造成的算力损失约为350万元。通过端侧链路故障逃朝气造 ,每年可挽回上千万元的损失。

总结

大模型散布式训练过程中的端侧网络故障 ,这是影响模型训练的沉大故障。构建精准且高效的故障处置机造 ,是各大型模型训练团队的持续钻营 ,也是保险大模型训练的沉要环节。

通过在通讯库中增长故障处置? ,可能大幅度削减端侧链路故障导致的算力损失。随着规划的持续迭代与美满 ,我们坚信端侧故障逃生规划可能在大规模集群训练故障处置中阐扬更为沉要的作用 ,为客户创造更大的价值。iSlot官方网站网络 ,致力做最懂端侧的网络供给商!

有关标签:

iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

点赞

更多技术博文

任何必要 ,请联系iSlot官方网站

iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题 ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】