登录社区云,与社区用户共同成长
邀请您加入社区
CANN开源社区ops-samples仓链接:https://gitcode.com/cann/ops-samples
CANN开源社区链接:https://gitcode.com/cann
1. 自定义算子开发系列:算子Kernel直调极简编程实践**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍。
随着人工智能的飞速发展,大模型推理场景的“低时延,高吞吐”诉求推动了PyTorch图模式的快速发展。torch.compile是PyTorch 2.0推出的核心特性,通过即时编译(JIT)将PyTorch代码转换为计算图,支持inductor等多种后端编译器,并利用图捕获和重放能力减少Host下发头开销,以优化大模型推理时延。
Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因就在于算子在Kernel执行前都需要计算出TilingData,而TilingData的计算通常是在Host侧完成再拷贝到Device侧的。针对这一问题我们推出了AICPU Tiling下沉编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的步
概述ScaleBox 以可扩展的分布式代码执行与验证为核心,为Code Agent 时代的大规模 CodeRL/RLVR 提供高准确、高吞吐、统一可复现的奖励反馈基础设施。背景在大模型训练范式中,后训练正迅速成为企业与研究机构的共同焦点。尤其在代码生成等复杂任务中,验证系统与强化学习(RL)已成为后训练阶段的核心支撑;验证器的准确性与执行效率,正在演变为制约 RLVR 性能上限与训练规模的关键瓶颈
当前AI模型部署设备通常采用CPU与算力卡组成的异构架构。在AI推理业务中,CPU主要负责任务调度,算力卡负责执行大量计算任务。由于算力卡成本远高于CPU,其计算执行又依赖CPU的任务下发,一旦CPU调度不及时,算力卡便会陷入空闲等待,造成高成本算力资源被低成本CPU拖累的局面。Overlap Scheduling是解决这一问题的通用优化手段——它将CPU的任务调度过程与算力设备的计算执行过程并行
SAM(suffix automaton,后缀自动机)是一个能够高效解决许多字符串问题的数据结构。直观上,字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合:结束位置endpos:考虑字符串 s 的任意非空子串 t,记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如,对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM
观察ReduceScatter阶段的输出结果,Rank 1得到了第2份数据切片的Reduce结果,Rank2得到了第1份数据切片的Reduce结果,因为交换了通信的数据切片编号,因此得到的输出(要求的输入)是乱序的。下面介绍几种常见的通信算法。从底层机制上看,单个通信任务在语义上是针对一块连续内存数据的,对于每一块连续内存的通信,底层都需要下发一个单独的任务,所以NHR算法通过这种方式将每次发送中
基于 DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-4B、Qwen3-30B-A3B 等模型,完成在昇腾平台上的 Code RL 端到端训练验证,证明该体系在真实训练场景中的可行性与稳定性。随着 Code RL 规模持续扩大,这类面向高并发执行与端到端验证的训练体系,正在成为下一阶段实践中不可或缺的基础设施。随着 Code RL 规模持续扩大,这类面向高并发执行与端到端验
CANN开源社区ops-transformer仓链接: https://gitcode.com/cann/ops-transformer