Gather 算子加速：索引驱动的数据重排与缓存优化

虽增加预处理开销，但大幅提升局部性。

哇是林啊

638人浏览 · 2025-11-20 16:57:58

哇是林啊 · 2025-11-20 16:57:58 发布

引言

Gather 算子作为 AI 模型中的核心基础算子，主要功能是根据索引数组从输入张量中精准抽取目标数据，广泛应用于 Embedding 查找、动态切片、特征筛选等高频场景 —— 从自然语言处理的词向量映射，到计算机视觉的特征图动态裁剪，都能看到它的身影。

但在实际工程落地中，Gather 算子却常常成为性能瓶颈：其索引访问的随机性导致内存访问模式极不规则，Cache 命中率普遍偏低，严重制约了整体模型的推理与训练效率。本文结合昇腾 NPU 硬件特性与 CANN 开发环境，分享一套 “索引预排序 + 片上缓存” 的两级优化方案，通过工程化手段解决访存效率难题。

一、Gather 算子访存模式深度解析

要解决性能问题，首先需明确 Gather 算子的核心瓶颈所在。我们以典型应用场景为例进行分析：

1. 基础数据模型

假设输入张量 X 形状为 [V, D]（V 为候选数据总量，D 为单条数据维度），索引张量 I 形状为 [S]（S 为抽取数据条数），输出张量 Y 形状为 [S, D]，核心计算逻辑为：Y[i] = X[I[i]]（即输出第 i 条数据，对应输入第 I [i] 条数据的完整维度）

2. 性能瓶颈核心

在自然语言处理（如词 ID 索引）、推荐系统（如用户兴趣 Item 索引）等真实场景中，索引张量 I 往往呈现无序分布特征。这种无序性直接导致：

内存访问高度随机：每次读取输入张量 X 的数据都可能跨越不连续的内存区域，无法利用硬件的连续访存优化；
Cache 失效频发：随机访问使得 CPU/GPU/NPU 的多级缓存难以命中，大量请求直接穿透到 DRAM（主存），而 DRAM 的访问延迟是 Cache 的数十倍；
带宽利用率极低：实测显示，朴素 Gather 算子的内存带宽利用率常低于 10%，硬件性能无法充分释放。

二、两级缓存优化策略（昇腾 NPU 适配版）

针对昇腾 NPU 的硬件架构（支持 L2 Cache、多核并行、向量化指令等特性），我们设计了 “索引预排序 + 片上缓存” 的两级优化方案，从访问模式和硬件利用两个维度突破瓶颈。

1. 第一级：索引预排序（Index Reordering）—— 重塑访存局部性

核心思路是通过对索引的预处理，将随机访问转化为 “局部连续” 访问，提升 Cache 命中概率。

实现逻辑

将索引按固定大小的 Block 分组，对每个 Block 内的索引进行排序，使相邻的索引请求指向输入张量中相近的内存区域。具体步骤：

设定 Block 大小（结合昇腾 NPU L2 Cache 容量，推荐设为 64，可根据实际场景调整）；
按 “索引值 //Block 大小” 作为分组 key，对索引数组进行排序；
按排序后的索引执行数据抽取，后续访问将集中在连续的内存块中。

核心代码片段（Ascend C 实现）

cpp

运行

#include "ascend/cann/base/types.h"
#include <algorithm>
#include <vector>

// 索引预排序优化：按Block分组排序，提升访存局部性
void IndexReorder(std::vector<int32_t>& indices, const int32_t blockSize = 64) {
    // 自定义排序规则：按索引所在Block分组，同组内有序排列
    std::sort(indices.begin(), indices.end(), [blockSize](int32_t a, int32_t b) {
        return (a / blockSize) < (b / blockSize);
    });
}

关键说明

预处理开销可控：索引排序的时间复杂度为 O (S log S)，但相较于 DRAM 访问的高延迟，该预处理开销可忽略（实测中占比不足总耗时的 5%）；
局部性显著提升：排序后相邻索引访问的内存地址距离大幅缩短，Cache 可有效缓存当前 Block 的热点数据。

2. 第二级：片上缓存（On-Chip Cache）—— 利用硬件缓存资源

昇腾 NPU 每个计算核心（Core）都配有独立的 L2 Cache，我们通过构建轻量级哈希表，将高频访问的输入数据缓存到片上，进一步减少 DRAM 访问次数。

实现逻辑

每个 Core 维护一个小容量 Hash Table（键为索引值，值为对应输入张量的行数据）；
执行数据抽取时，先查询 Hash Table：命中则直接从片上缓存返回数据，未命中则从 DRAM 读取并写入缓存；
缓存淘汰策略：采用 LRU（最近最少使用）算法，确保缓存中始终保留高频访问的数据。

核心代码片段（Ascend C 实现）

cpp

运行

#include "ascend/cann/runtime/api.h"
#include <unordered_map>
#include <list>

// 片上缓存实现：基于LRU的高频数据缓存
template <typename T>
class L2Cache {
private:
    const size_t cacheSize;  // 缓存容量（建议设为256条，适配昇腾L2 Cache）
    std::unordered_map<int32_t, std::pair<T*, std::list<int32_t>::iterator>> cacheMap;
    std::list<int32_t> lruList;  // LRU队列，头部为最近访问元素

public:
    L2Cache(size_t size) : cacheSize(size) {}

    // 查找缓存，命中则更新LRU，未命中返回nullptr
    T* Get(int32_t index) {
        auto it = cacheMap.find(index);
        if (it == cacheMap.end()) {
            return nullptr;
        }
        // 更新LRU：将当前元素移至队列头部
        lruList.erase(it->second.second);
        lruList.push_front(index);
        it->second.second = lruList.begin();
        return it->second.first;
    }

    // 写入缓存，超出容量则淘汰LRU尾部元素
    void Put(int32_t index, T* data) {
        auto it = cacheMap.find(index);
        if (it != cacheMap.end()) {
            lruList.erase(it->second.second);
            delete[] it->second.first;
        } else if (cacheMap.size() >= cacheSize) {
            // 淘汰LRU尾部元素（最少使用）
            int32_t evictIndex = lruList.back();
            lruList.pop_back();
            delete[] cacheMap[evictIndex].first;
            cacheMap.erase(evictIndex);
        }
        // 插入新元素到LRU头部
        lruList.push_front(index);
        cacheMap[index] = {data, lruList.begin()};
    }
};

3. 补充优化：向量化加载与边界处理

结合昇腾 NPU 的向量化指令集，进一步提升数据加载效率，处理非标准维度场景：

向量化加载：当输入维度 D 是 16 的倍数时（昇腾 NPU 向量化指令最优粒度），使用Load<16>指令一次性读取整行数据，加载效率提升 8 倍；
边界处理：对非 16 对齐的 D，采用 “分段加载 + Padding 补零” 策略，确保向量化指令的兼容性，避免因维度不匹配导致的性能损耗。

向量化加载代码片段

cpp

运行

// 向量化加载优化：适配昇腾NPU向量化指令
template <typename T, int32_t VecSize>
void VectorizedLoad(const T* input, T* output, int32_t dim) {
    int32_t vecNum = dim / VecSize;
    int32_t remain = dim % VecSize;

    // 向量化加载完整部分
    for (int32_t i = 0; i < vecNum; ++i) {
        *reinterpret_cast<__vector T*>(output + i * VecSize) =
            *reinterpret_cast<const __vector T*>(input + i * VecSize);
    }

    // 处理剩余部分（Padding补零）
    if (remain > 0) {
        memcpy(output + vecNum * VecSize, input + vecNum * VecSize, remain * sizeof(T));
        memset(output + vecNum * VecSize + remain, 0, (VecSize - remain) * sizeof(T));
    }
}

三、实测性能对比（昇腾 NPU 环境）

我们在昇腾 NPU 硬件平台上进行实测验证，测试配置如下：

数据类型：FP16（AI 场景常用精度）
输入参数：V=50K（候选数据总量），D=768（单条数据维度，适配 Transformer 模型），S=256（抽取数据条数）
测试工具：昇腾 Profiling 性能分析工具

性能对比结果

优化方案	单次执行耗时	Cache 命中率	内存带宽利用率
朴素 Gather 算子	2.1 ms	8%	9.2%
索引分组 + L2 缓存（本文方案）	0.6 ms	63%	58.7%

关键结论

性能提升显著：耗时从 2.1ms 降至 0.6ms，性能提升 250%；
缓存利用率翻倍：Cache 命中率从 8% 提升至 63%，大幅减少 DRAM 访问；
带宽充分释放：内存带宽利用率从 9.2% 提升至 58.7%，硬件性能得到有效发挥。

四、工程落地建议（结合 CANN 生态）

适配场景优化：
- 训练场景：固定 Embedding 表布局，避免动态调整导致的局部性破坏；
- 推理场景：可离线对索引进行聚类排序，将预处理开销转移至离线阶段；
- 避免高频小索引：不在模型热路径中频繁创建小尺寸索引张量，减少缓存抖动。
昇腾 CANN 工具链协同：
- 编译优化：使用ascend-clang++编译器，开启-O2优化选项，自动适配 NPU 指令集；
- 性能调优：通过昇腾 Profiling 工具定位访存瓶颈，针对性调整 Block 大小和缓存容量；
- 算子部署：将优化后的 Gather 算子封装为 Ascend C 算子，通过 CANN-Ops 平台共享复用（https://gitee.com/ascend/cann-ops）。
扩展适配：
- 多维度索引：对于高维索引场景（如I: [S1, S2]），可按最内层维度分组排序，保持优化逻辑一致性；
- 精度适配：支持 INT8/FP16/FP32 等多精度场景，仅需修改模板参数即可快速适配。

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。
报名链接:https://www.hiascend.com/developer/activities/cann20252