基于950 平台,详解 HiFloat8 全流程优化。推理端借 MLA 算子融合实现片上闭环,优化 8-bit KV Cache、提升吞吐;训练端适配延时缩放,兼顾训练稳定与 8-bit 算力释放。

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐