想跑万亿参数MoE大模型?专家并行的跨卡Token收发是性能瓶颈!本场直播带你揭秘昇腾950上MegaMoe的优化:将MoE层5个算子端到端融合为单一大算子,消除中间结果编排与同步开销;通过Cube/Vector双核协同及多级流水编排,掩盖搬运与量化开销;由AIV直驱MTE通信,与矩阵计算深度交织,用计算流水掩盖通信时延。直播内容覆盖硬件协同、流水优化、通算融合真实落地经验,不容错过!

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐