Ascend C中的“流水线”艺术：为何计算与搬运要重叠？

实现的，而是通过一种更精妙的、让核函数内部“一心二用”的技术。它就像一位世界顶级的厨师，不得不亲自跑去冷库取食材（数据搬运），取回来后才能开始烹饪（计算），做完后还得自己把菜端到前厅（结果回写）。今天，就让我们一同揭开这“流水线”艺术的神秘面纱，看看它是如何让我们的算子性能实现第二次飞跃的。我不再仅仅满足于让代码跑出正确的结果，而是开始像一位芯片架构师一样思考，如何在时空维度上编排数据流与计算流，

程序猿追

639人浏览 · 2025-11-18 19:46:24

程序猿追 · 2025-11-18 19:46:24 发布

我是那个在CANN训练营里，刚刚指挥着上百个核函数实例完成向量加法的“指挥官”。看着 msprof 性能分析报告中大幅提升的指标，我志得意满，觉得已经摸到了性能的天花板。直到训练营的导师在“码力全开特辑”中展示了一份优化前后的对比：一个复杂的算子，在采用了“流水线”技术后，耗时从10毫秒降到了不足4毫秒。

我震惊了。这并非通过增加更多核（blockDim）实现的，而是通过一种更精妙的、让核函数内部“一心二用”的技术。导师指着性能分析图里那条代表AI Core计算单元利用率曲线说：“看，在没有流水线时，它像锯齿一样起伏不定；而有了流水线，它变成了一条坚实的高原。这，就是计算与搬运重叠的魔力。”

在 [2025年昇腾CANN训练营第二季] 的深度指导下，我花了大量时间与这个令人着迷的概念“搏斗”。今天，就让我们一同揭开这“流水线”艺术的神秘面纱，看看它是如何让我们的算子性能实现第二次飞跃的。

>> 突破性能瓶颈，需要洞悉底层架构：点击加入训练营，掌握高阶优化技巧

第一章：一个“忙里偷闲”的AI Core——问题的根源

让我们先回到没有流水线的“朴素”时代，审视一下我们之前算子的工作模式。以处理多个数据块（Tiles）的算子为例，它的工作流程是这样的：

搬运第1块数据 (从GM到LM)
计算第1块数据 (在LM上)
回写第1块结果 (从LM到GM)
搬运第2块数据
计算第2块数据
回写第2块结果
…(循环)…

看出问题了吗？在这个流程中，AI Core强大的计算单元在步骤1和步骤3期间，是完全闲置的！ 它就像一位世界顶级的厨师，不得不亲自跑去冷库取食材（数据搬运），取回来后才能开始烹饪（计算），做完后还得自己把菜端到前厅（结果回写）。在这个过程中，他大部分时间都在跑腿，灶台（计算单元）大部分时间是冷的。

这就是性能的症结：计算与搬运是串行的，资源利用率极低。

第二章：流水线的核心思想——让厨师和配菜员并行工作

流水线的思想，源于工业生产。它通过将任务分解为多个阶段，并让这些阶段同时处理不同任务的产品，来大幅提升整体效率。

在Ascend C中，这套哲学被精妙地应用：

核心思想：将“数据搬运”和“数据计算”视为两个独立且可并行的任务。

任务一：数据搬运。由AI Core内部的数据搬运单元（Data Copy Unit） 执行。
任务二：数据计算。由AI Core内部的计算单元（Cube/Vector Unit） 执行。

流水线的目标，就是让搬运单元和计算单元同时忙起来。

当计算单元正在计算第N块数据时，搬运单元应该同时去搬运第N+1块数据。
这样，当计算单元处理完第N块，准备处理第N+1块时，它所需要的的数据已经由搬运单元提前准备好了，无需等待。

这就好比为顶级厨师配了一位专业的配菜员。当厨师在烹饪第N道菜时，配菜员已经在旁边为他准备第N+1道菜的食材了。厨师几乎可以不间断地工作，整体出菜效率飙升。

第三章：双缓冲实战——Ascend C中的流水线实现

在Ascend C中，实现这一目标的标准技术是 “双缓冲（Double Buffer）”。

1. 什么是双缓冲？
简单说，就是在本地内存（LM）上开辟两份同样大小的缓冲区（Buffer0和Buffer1）。

Buffer A：用于计算单元访问（计算当前数据块）。
Buffer B：用于搬运单元访问（为下一个数据块搬运数据）。

当一个计算-搬运周期结束后，两个缓冲区的角色进行交换。

2. 代码实现拆解：从“顺序”到“重叠”

让我们改造之前的向量加法，引入双缓冲流水线。

朴素版本（串行）：

for (int tileIdx = 0; tileIdx < tileNum; ++tileIdx) {
    // 1. 搬运
    DataCopy(localBuffer, gmInput + tileOffset, tileLength);
    // 2. 计算 (此时搬运单元闲置)
    for (int i = 0; i < tileLength; ++i) {
        localBuffer[i] = localBuffer[i] * 2 + 1;
    }
    // 3. 回写 (此时计算单元闲置)
    DataCopy(gmOutput + tileOffset, localBuffer, tileLength);
}

双缓冲流水线版本：

#include "kernel_operator.h"
using namespace AscendC;

// 1. 在LM上申请双缓冲
constexpr int32_t TILE_LENGTH = 256;
uint8_t localBuffer0[TILE_LENGTH]; // Buffer A
uint8_t localBuffer1[TILE_LENGTH]; // Buffer B

// 2. 使用Pipe管理数据流
Pipe pipe;
constexpr int32_t BUFFER_NUM = 2; // 双缓冲

// 3. 定义数据传输块大小
TPipe transferPipe;
constexpr int32_t TRANSFER_COPY_UNIT = 32; // 假设为32字节

// 4. 启动流水线
// a. 预先搬运第一个Tile的数据到Buffer0
DataCopy<LocalTensor, GM_ADDR>(localBuffer0, gmInput, TILE_LENGTH / TRANSFER_COPY_UNIT, 0, 0);

for (int tileIdx = 0; tileIdx < tileNum; ++tileIdx) {
    // b. 计算当前Tile (使用Buffer0)
    for (int i = 0; i < TILE_LENGTH; ++i) {
        localBuffer0[i] = localBuffer0[i] * 2 + 1;
    }

    // c. 异步启动下一个Tile的数据搬运到Buffer1 (与当前计算重叠!)
    if (tileIdx < tileNum - 1) { // 确保不是最后一个Tile
        DataCopy<LocalTensor, GM_ADDR>(localBuffer1, gmInput + (tileIdx+1)*TILE_LENGTH, TILE_LENGTH / TRANSFER_COPY_UNIT, 0, 0);
    }

    // d. 回写当前Tile的计算结果 (来自Buffer0)
    DataCopy<GM_ADDR, LocalTensor>(gmOutput + tileIdx*TILE_LENGTH, localBuffer0, TILE_LENGTH / TRANSFER_COPY_UNIT, 0, 0);

    // e. 交换缓冲区角色：下一轮循环，Buffer1变为当前计算Buffer，Buffer0变为下一块数据的搬运Buffer
    // 通过一个简单的指针交换或索引切换实现
    uint8_t* temp = localBuffer0;
    localBuffer0 = localBuffer1;
    localBuffer1 = temp;
}