基于TorchTitan的DeepSeekV4昇腾续训练优化
·
本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过TorchTitan 的训练入图能力,实现开箱即本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,
整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过TorchTitan 的训练入图能力,实现开箱即
更多推荐



所有评论(0)