专栏_CANN开发者社区

ops-samples仓开源介绍

CANN开源社区ops-samples仓链接:https://gitcode.com/cann/ops-samples

昇腾CANN
2026-02-25 11:39:10

 143

#CANN #开源 #昇腾
CANN全面开源开放社区介绍

CANN开源社区链接：https://gitcode.com/cann

昇腾CANN
2026-02-02 09:28:16

 170

#CANN #开源 #昇腾
CANN易用性案例汇总

1. 自定义算子开发系列：算子Kernel直调极简编程实践**简介：**Kernel直调方式具备代码轻量化、开发直观便捷的优势，本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式，在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列：AICPU Tiling下沉编程方式介绍。

昇腾CANN
2026-01-09 18:10:27

 1097

#CANN
npugraph_ex：CANN aclGraph的图模式样板间

随着人工智能的飞速发展，大模型推理场景的“低时延，高吞吐”诉求推动了PyTorch图模式的快速发展。torch.compile是PyTorch 2.0推出的核心特性，通过即时编译（JIT）将PyTorch代码转换为计算图，支持inductor等多种后端编译器，并利用图捕获和重放能力减少Host下发头开销，以优化大模型推理时延。

昇腾CANN
2025-12-23 20:34:18

 1052

#CANN
自定义算子开发系列：AICPU Tiling下沉编程方式介绍

Host Bound一直是算子调用的显著性能瓶颈，造成Host Bound的核心原因就在于算子在Kernel执行前都需要计算出TilingData，而TilingData的计算通常是在Host侧完成再拷贝到Device侧的。针对这一问题我们推出了AICPU Tiling下沉编程方式，使用Device侧的AICPU计算TilingData，节省了Host侧拷贝TilingData到Device侧的步

 昇腾CANN
2025-12-19 18:55:36

 1017

#CANN
ScaleBox：一个面向 CodeRL 场景的高效代码验证引擎

概述ScaleBox 以可扩展的分布式代码执行与验证为核心，为Code Agent 时代的大规模 CodeRL/RLVR 提供高准确、高吞吐、统一可复现的奖励反馈基础设施。背景在大模型训练范式中，后训练正迅速成为企业与研究机构的共同焦点。尤其在代码生成等复杂任务中，验证系统与强化学习（RL）已成为后训练阶段的核心支撑；验证器的准确性与执行效率，正在演变为制约 RLVR 性能上限与训练规模的关键瓶颈

 昇腾CANN
2026-01-18 09:10:29

 330

#CANN
Overlap Scheduling：模型吞吐优化利器，助力TPS 70%提升

当前AI模型部署设备通常采用CPU与算力卡组成的异构架构。在AI推理业务中，CPU主要负责任务调度，算力卡负责执行大量计算任务。由于算力卡成本远高于CPU，其计算执行又依赖CPU的任务下发，一旦CPU调度不及时，算力卡便会陷入空闲等待，造成高成本算力资源被低成本CPU拖累的局面。Overlap Scheduling是解决这一问题的通用优化手段——它将CPU的任务调度过程与算力设备的计算执行过程并行

 昇腾CANN
2026-03-06 17:15:59

 446

#CANN #昇腾
基于昇腾的SAM投机解码：长序列强化学习训练加速利器

SAM（suffix automaton，后缀自动机）是一个能够高效解决许多字符串问题的数据结构。直观上，字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合：结束位置endpos：考虑字符串 s 的任意非空子串 t，记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如，对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM

昇腾CANN
2025-12-22 14:18:33

 957

#CANN
CANN集合通信技术解读——NHR算法

观察ReduceScatter阶段的输出结果，Rank 1得到了第2份数据切片的Reduce结果，Rank2得到了第1份数据切片的Reduce结果，因为交换了通信的数据切片编号，因此得到的输出（要求的输入）是乱序的。下面介绍几种常见的通信算法。从底层机制上看，单个通信任务在语义上是针对一块连续内存数据的，对于每一块连续内存的通信，底层都需要下发一个单独的任务，所以NHR算法通过这种方式将每次发送中

 昇腾CANN
2025-12-19 21:26:34

 790

#算法
基于 verl 框架和 ScaleBox 的代码强化学习实践

基于 DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-4B、Qwen3-30B-A3B 等模型，完成在昇腾平台上的 Code RL 端到端训练验证，证明该体系在真实训练场景中的可行性与稳定性。随着 Code RL 规模持续扩大，这类面向高并发执行与端到端验证的训练体系，正在成为下一阶段实践中不可或缺的基础设施。随着 Code RL 规模持续扩大，这类面向高并发执行与端到端验

 昇腾CANN
2026-01-19 10:28:04

 407

#CANN
ops-transformer仓及通算融合算子介绍

CANN开源社区ops-transformer仓链接: https://gitcode.com/cann/ops-transformer

昇腾CANN
2026-02-02 09:28:39

 127

#CANN #开源 #昇腾
面向中小规模昇腾算力的大模型高性能推理实践

CANN开源社区链接：https://gitcode.com/cann

昇腾CANN
2026-02-02 09:27:25

 149

#CANN #开源