登录社区云,与社区用户共同成长
邀请您加入社区
CANN开源社区oam-tools仓链接:https://gitcode.com/cann/oam-tools
CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!
更多推荐
TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!
【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践
本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过
【cann-samples系列】MX量化矩阵乘的性能优化实践
cann-samples:https://gitcode.com/cann/cann-sample计算公式ci,j=∑g=0ceil(K/G)−1(scaleAi,g⋅scaleBg,j⋅∑k′=0G−1(ai,gG+k′⋅bgG+k′,j))c_{i, j} = \sum^{ceil(K/G)-1}_{g=0}\left(scaleA_{i, g} \cdot scaleB_{g, j} \cd
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)