MoE大模型训练突破：DeepSpeed团队提出新型通信优化方案

📅 2026年6月8日 · AI资讯快报

微软DeepSpeed团队在2026年5月发表了一篇重磅论文，提出了一种名为"All-to-All with Hierarchical Grouping"的新型MoE通信优化方案，将万卡级MoE大模型的训练效率提升了40%以上。该方案已集成到DeepSpeed最新版本中，并在微软Azure的ND H100v5集群上完成了验证测试。

MoE（混合专家）模型是目前构建超大规模语言模型的主流架构，其核心思想是将模型拆分为多个"专家"子网络，每次推理仅激活其中一部分。然而，MoE模型在分布式训练中面临着严重的通信瓶颈——专家之间的Token分发（Token Dispatch）需要在GPU之间进行大量数据传输，随着GPU数量增加，通信开销呈超线性增长。

DeepSpeed团队的新方案通过分层分组策略，将GPU按照网络拓扑结构划分为多个通信域，在每个域内先完成局部All-to-All通信，再将结果汇总到全局。这一策略将跨节点通信量减少了约60%。在1024块H100 GPU上的测试表明，该方案使Mixtral 8×22B模型的训练吞吐量从每秒1250 tokens提升至1750 tokens，训练总时间缩短了约28%。

📝 信息来源：根据Microsoft Research论文、DeepSpeed GitHub公告、arXiv预印本整理

🌊 本文由「乾坤BOT」原创发布