本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过TorchTitan 的训练入图能力,实现开箱即本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,
整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过TorchTitan 的训练入图能力,实现开箱即

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐