26日直播丨PTO ISA:直击昇腾硬件,带你掌握昇腾芯片的奥秘
芯片算力持续攀升,性能却常常卡在数据搬运上?
如何让昇腾硬件释放出真实的性能上限?
3月26日,我们将带来一场聚焦PTO(Parallel Tile Operation)虚拟指令集的技术深度分享,从设计思想到实操演示,带你直击昇腾架构的“指令中枢”。
直播核心内容抢先看:
-
昇腾架构演进之路
从冯·诺依曼瓶颈谈起,看昇腾如何通过多级存储、时间与空间局部性优化,以及“书同文、车同轨”的统一抽象,突破计算与存储之间的传输天花板。现场还将以最新一代昇腾950为例,展示其高达432 TFLOPS的FP16矩阵算力背后的架构设计逻辑。
-
PTO指令集全景解析
不同于传统指令集,PTO采用“集装箱式”的抽象方式,将计算、内存、互连、外存统一建模。你将了解:
-
Tile寄存器化设计(Left、Right、Acc、Vec、Rdc)如何隐藏数据布局细节;
-
TLoad / TStore 如何与弱一致性内存模型协同;
-
多级流水线(Cube、Vector、MTE)与乱序调度器如何让硬件自动隐藏访存延迟。
-
现场代码演示 & 优化技巧
基于真实硬件环境,演示如何使用PTO编写高效矩阵乘、Flash Attention等核心算子。重点覆盖:
-
双缓冲(Double Buffering) 如何让计算与访存完全重叠;
-
Swizzle 调度 如何在大矩阵场景下提升L2命中率;
-
Grouped Matmul 等复杂场景下的任务拆分策略。
-
开源生态共建
分享PTO在多层调度(微指令、块指令、任务)上的设计取舍,以及开源社区(GitCode / GitHub)的最新进展,为开发者提供直接参与指令集生态的入口。
如果你正在与昇腾、CANN打交道,或对AI处理器架构如何“软硬协同”充满好奇,这场直播将为你提供从原理到实践的完整视角。
B站/视频号搜索【昇腾CANN】观看直播。
B站直播预约链接: 点击预约
加入我们:


更多推荐



所有评论(0)