在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。

关键组成部分

  1. CCUM和CCUA单元

    • CCUM:控制单元,解析任务描述符并执行通信任务。

    • CCUA:数据处理单元,处理数据传输和规约。

  2. 基本构成单元

    • Memory Slice (MS):4KB片上缓存。

    • Gather Scatter Address (GSA):存储内存地址的寄存器。

    • General Purpose Register (Xn):存储数据长度和循环控制信息。

    • Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。

功能特性亮点

CCU支持完整的指令集,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持

B站直播预约链接:点击预约

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐