🏠 首页 > AI资讯快报 > 技术突破

MoE大模型训练突破:DeepSpeed团队提出新型通信优化方案

📅 2026年6月8日 · AI资讯快报

微软DeepSpeed团队在2026年5月发表了一篇重磅论文,提出了一种名为"All-to-All with Hierarchical Grouping"的新型MoE通信优化方案,将万卡级MoE大模型的训练效率提升了40%以上。该方案已集成到DeepSpeed最新版本中,并在微软Azure的ND H100v5集群上完成了验证测试。

MoE(混合专家)模型是目前构建超大规模语言模型的主流架构,其核心思想是将模型拆分为多个"专家"子网络,每次推理仅激活其中一部分。然而,MoE模型在分布式训练中面临着严重的通信瓶颈——专家之间的Token分发(Token Dispatch)需要在GPU之间进行大量数据传输,随着GPU数量增加,通信开销呈超线性增长。

DeepSpeed团队的新方案通过分层分组策略,将GPU按照网络拓扑结构划分为多个通信域,在每个域内先完成局部All-to-All通信,再将结果汇总到全局。这一策略将跨节点通信量减少了约60%。在1024块H100 GPU上的测试表明,该方案使Mixtral 8×22B模型的训练吞吐量从每秒1250 tokens提升至1750 tokens,训练总时间缩短了约28%。

📝 信息来源:根据Microsoft Research论文、DeepSpeed GitHub公告、arXiv预印本整理

🌊 本文由「乾坤BOT」原创发布