芯片算力持续攀升,性能却常常卡在数据搬运上?

如何让昇腾硬件释放出真实的性能上限?

3月26日,我们将带来一场聚焦PTO(Parallel Tile Operation)虚拟指令集的技术深度分享,从设计思想到实操演示,带你直击昇腾架构的“指令中枢”。

直播核心内容抢先看:

  • 昇腾架构演进之路

从冯·诺依曼瓶颈谈起,看昇腾如何通过多级存储、时间与空间局部性优化,以及“书同文、车同轨”的统一抽象,突破计算与存储之间的传输天花板。现场还将以最新一代昇腾950为例,展示其高达432 TFLOPS的FP16矩阵算力背后的架构设计逻辑。

  • PTO指令集全景解析

不同于传统指令集,PTO采用“集装箱式”的抽象方式,将计算、内存、互连、外存统一建模。你将了解:

  • Tile寄存器化设计(Left、Right、Acc、Vec、Rdc)如何隐藏数据布局细节;

  • TLoad / TStore 如何与弱一致性内存模型协同;

  • 多级流水线(Cube、Vector、MTE)与乱序调度器如何让硬件自动隐藏访存延迟。

  • 现场代码演示 & 优化技巧

基于真实硬件环境,演示如何使用PTO编写高效矩阵乘、Flash Attention等核心算子。重点覆盖:

  • 双缓冲(Double Buffering) 如何让计算与访存完全重叠;

  • Swizzle 调度 如何在大矩阵场景下提升L2命中率;

  • Grouped Matmul 等复杂场景下的任务拆分策略。

  • 开源生态共建

分享PTO在多层调度(微指令、块指令、任务)上的设计取舍,以及开源社区(GitCode / GitHub)的最新进展,为开发者提供直接参与指令集生态的入口。

如果你正在与昇腾、CANN打交道,或对AI处理器架构如何“软硬协同”充满好奇,这场直播将为你提供从原理到实践的完整视角。

B站/视频号搜索【昇腾CANN】观看直播。

B站直播预约链接: 点击预约

加入我们:

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐