5月13日直播丨多模态生成技术优化实践第一期-稀疏与量化篇

昇腾CANN

6人浏览 · 2026-05-12 20:26:23

昇腾CANN · 2026-05-12 20:26:23 发布

多模态生成推理优化的"三板斧"：算得轻、算得少、算得巧

随着多模态生成模型参数量与序列长度持续攀升，高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下，走通高性能与低占存的算法与工程化路径？

本次直播以典型开源模型为例，带大家了解如何在昇腾上实践多模态生成的典型优化：稀疏Attention模式设计、量化Attention低精度策略、分布式并行方案选型，以及DiT层级特征Cache与复用机制。结合昇腾NPU集群通信拓扑与CANN软件栈特性，从算法原理到算子落地，分享多模态生成的全栈适配经验与可复现的优化方法论，帮助多模态生成模型“算得轻，算得少，算得巧”。

干货密集，从稀疏量化到并行和缓存复用，带你走通多模态生成Infra的实践落地路径。敬请期待。

欢迎锁定直播间，一起探讨视频生成模型的工程化解法。

通过本次直播，我们希望能和大家一起学习：