搜索
CANN开发者社区
https://cann.csdn.net
成员
CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!
开发者学堂
查看更多
面向昇腾950的算子编程必修课(PyPTO)
PyPTO让算子开发更简单,Tensor编程范式显著降低开发门槛,多层级计算图转换充分释放硬件算力。本周课程带你解锁PyPTO核心技能,从环境搭建、Tensor编程范式、IDE可视化性能调优到网络融合算子实操,全方位驾驭新一代芯片编程。让算子开发更高效,算法创新更自由。立即加入,抢占技术前沿!
CANNBot自动算子生成
PyPTO Agent 实操:1天开发自定义融合算子
TileLang-Ascend 学习周
本课程将系统讲解TileLang在昇腾平台上的核心编程范式:通过Developer模式的高效原语快速实现算子功能。我们将基于官方指南,手把手带你完成从环境配置、算子开发、调优到集成部署的全流程实战,助你掌握在Ascend架构上构建高性能算子的完整能力。
热门直播
查看更多
未开播
DSL助力DeepSeek-V4快速适配与调优
本次分享聚焦于两种领域特定语言(DSL)--TileLang与PyPTO,深入阐述其如何赋能模型的快速适配;同时展示典型融合算子的实现与接入方案,并系统介绍相关性能优化的策略及实测结果。
回放中
基于TorchTitan的DeepSeekV4昇腾续训练优化
本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过Tor
回放中
基于昇腾950的DeepSeek-V4算子亲和优化实践
本次直播将解读如何通过算子融合与优化使DeepSeek-V4充分发挥950系列产品的算力潜能。我们将从算子设计思路、指令选择、分核策略等多方面入手,详细介绍算子支持与优化的“黑科技”,帮助开发者深入了解DeepSeek-V4与昇腾950芯片高效协同的实现案例。













