基于TorchTitan的DeepSeekV4昇腾续训练优化

昇腾CANN

31人浏览 · 2026-04-26 18:00:10

昇腾CANN · 2026-04-26 18:00:10 发布

本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践，分享大EP+FSDP并行优化方案，以及基于torch.compile+AutoFuse 的高效训练入图方案，在A364卡集群4K序列CPT训练场景，整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构，快速开展CPT/SFT等算法验证，并通过TorchTitan 的训练入图能力，实现开箱即本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践，分享大EP+FSDP并行优化方案，以及基于torch.compile+AutoFuse 的高效训练入图方案，在A364卡集群4K序列CPT训练场景，
整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构，快速开展CPT/SFT等算法验证，并通过TorchTitan 的训练入图能力，实现开箱即