掌握Ascend C算子开发核心：Tiling概念与动态Shape实现详解

本文系统介绍了AscendC算子开发中的Tiling计算技术，重点解析了动态shape场景的实现方法。文章首先阐明Tiling的基本概念和必要性，对比分析了固定shape与动态shape的实现差异，详细阐述了动态shape场景下Tiling结构体设计、数据传递过程和多核并行策略。针对动态shape实现，文章特别强调了硬件对齐原则、改装要点及调用流程，并为准备AscendC认证的开发者提供了学习建议

霖705

1032人浏览 · 2025-10-30 20:33:06

霖705 · 2025-10-30 20:33:06 发布

训练营简介
2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机、平板、开发板等大奖。

在参加训练营的过程中，我深入探索了CANN CV算子架构的奥秘。CANN作为昇腾AI的核心基础软件平台，搭起了AI框架与昇腾硬件的桥梁，始终以 “使能每一位创新者” 为目标。本文将分享我在学习CANN CV算子架构过程中的理解、实战经验以及遇到的问题解决方案。

Ascend C算子开发能力认证是昇腾社区为开发者提供的重要技能认证，其中Tiling计算是核心考核内容之一。本文将深入解析Tiling的基本概念，并详细介绍动态shape场景下Tiling的实现方法，帮助开发者系统掌握这一关键技术。

一、Tiling基本概念：为何需要数据分块

在Ascend C算子开发中，Tiling是一个基础而重要的概念。大多数情况下，NPU中AI Core的Local Memory存储空间有限，无法完全容纳算子的输入与输出的所有数据。这就需要采用分块处理的策略：每次只搬运一部分输入数据进行计算，然后将结果搬出，再搬运下一部分输入数据，重复这个过程直到得到完整结果。

这种数据切分和分块计算的过程就称为Tiling（数据分块）。其中涉及几个关键术语：

Tiling块：每次搬运的那一部分数据块
Tiling算法/策略：根据算子中不同输入形状确定搬入基本块大小的相关算法
Tiling函数：算子中实现Tiling算法的函数，一般定义在host侧的tiling头文件中

从硬件层面看，Ascend AI处理器内部有Global Memory和Local Memory两级存储。Local Memory靠近计算单元，带宽高但容量有限；Global Memory容量大但带宽较低。因此，合理的Tiling策略能最大程度利用Local Memory的高带宽特性，提升计算效率。

二、Tiling的实现方式：固定shape与动态shape对比

在实际开发中，Tiling的实现根据shape是否可变分为两种场景：固定shape和动态shape，它们有显著的差异。

1. 固定shape场景

固定shape场景下，输入大小在编译时就已经确定。这种情况下，每次搬运的数据量以及总共搬运次数都可以在编译时直接计算出来。

优势：

实现难度低，只需考虑固定shape的逻辑处理
优化难度低

劣势：

灵活性差，不同shape需要重新编译算子，会产生大量的算子二进制文件
无法适应实际应用中输入尺寸多变的场景

固定shape的核函数实现通常直接使用常量定义数据尺寸：

#include "add_custom_unalign_tiling.h"
#include "register/op_def_registry.h"

namespace optiling {
constexpr uint32_t BLOCK_DIM = 8;
constexpr uint32_t SIZE_OF_HALF = 2;
constexpr uint32_t BLOCK_SIZE = 32;
// shape需要对齐到的最小单位
constexpr uint32_t ALIGN_NUM = BLOCK_SIZE / SIZE_OF_HALF;

2. 动态shape场景

动态shape场景下，算子的形状可以通过核函数的入参传入核函数内部，参与内部逻辑计算。这种场景实现难度较高，需要考虑不同逻辑分支处理，优化难度也相应增加。

优势：

灵活性高，能适应不同shape的使用场景
一个算子能处理多种尺寸的输入，减少算子二进制文件数量

劣势：

实现复杂度高，需要考虑各种边界情况
优化难度大，需要保证不同shape下的性能表现

动态shape的核函数实现较为复杂：

#include "kernel_operator.h"
using namespace AscendC;
constexpr int32_t BUFFER_NUM = 2;
extern "C" __global__ __aicore__ void add_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z, GM_ADDR workspace, GM_ADDR tiling)
{
    GET_TILING_DATA(tilingData, tiling);
    KernelAdd op;
    op.Init(x, y, z, tilingData.totalLength, tilingData.tileNum);
    if (TILING_KEY_IS(1)) {
        op.Process();
    }
}

三、动态shape场景Tiling实现详解

1. Tiling结构体设计

在Ascend C中，Tiling的直接表示形式是结构体（struct），简称Tiling结构体。这个结构体定义了如何对输入数据进行切分，以及决定了计算过程的细节。

动态shape场景的Tiling结构体通常包含以下关键信息：

TOTAL_LENGTH：总共需要计算的数据个数
TILE_NUM：每个核上计算数据分块的个数
其他与数据切分相关的参数

Tiling结构体在host侧实例化，并通过指针传入kernel函数中。这种方式使得host侧可以根据实际的shape信息动态计算Tiling参数，然后将这些参数传递给device侧使用。

2. Tiling数据的传递过程

Tiling数据从host侧到device侧的传递需要以下几个步骤：

在host侧为Tiling结构体申请空间：aclrtMallocHost((void**)(&tilingHost), tilingSize)
在device侧为Tiling结构体申请空间：aclrtMalloc((void**)&tilingDevice, tilingSize, ACL_MEM_MALLOC_HUGE_FIRST)
执行内存拷贝，将Tiling结构体从host侧搬运到device侧：aclrtMemcpy(tilingDevice, tilingSize, tilingHost, tilingSize, ACL_MEMCPY_HOST_TO_DEVICE)

3. 核函数中的Tiling解析

在核函数中，需要通过特定的宏函数来解析Tiling数据：

使用GET_TILING_DATA宏函数获取tiling结构体
对于CPU模式和NPU模式之间的差异，使用CONVERT_TILING_DATA宏函数将__ubuf_uint8_t*转化为__ubuf__tilingstruct*
使用INIT_TILING_DATA宏函数区分tiling_data在不同的初始化过程