状态
全部
未开始
进行中
已结束
日期
04.29
19:00:00
DSL助力DeepSeek-V4快速适配与调优
本次分享聚焦于两种领域特定语言(DSL)--TileLang与PyPTO,深入阐述其如何赋能模型的快速适配;同时展示典型融合算子的实现与接入方案,并系统介绍相关性能优化的策略及实测结果。
2026-04-29 19:00:00
04.28
19:00:00
基于TorchTitan的DeepSeekV4昇腾续训练优化
本场直播聚焦 TorchTitan-NPU 支持 DeepSeek-V4-Flash 续训练的实践,分享大EP+FSDP并行优化方案,以及基于torch.compile+AutoFuse 的高效训练入图方案,在A364卡集群4K序列CPT训练场景,整网最高吞吐达到1100tokens/p/s。帮助昇腾大模型开发者基于 DeepSeek-V4新模型架构,快速开展CPT/SFT等算法验证,并通过Tor
2026-04-28 19:00:00
04.27
19:00:00
基于昇腾950的DeepSeek-V4算子亲和优化实践
本次直播将解读如何通过算子融合与优化使DeepSeek-V4充分发挥950系列产品的算力潜能。我们将从算子设计思路、指令选择、分核策略等多方面入手,详细介绍算子支持与优化的“黑科技”,帮助开发者深入了解DeepSeek-V4与昇腾950芯片高效协同的实现案例。
2026-04-27 19:00:00
04.27
16:00:00
【码力全开特辑】PyPTO IDE可视化工具介绍
开发效率翻倍秘籍!详解PyPTO IDE插件使用技巧,边写代码边查问题,让算子开发像搭积木一样简单高效!
2026-04-27 16:00:00
04.24
16:00:00
DeepSeek-V4 昇腾Day 0首发
2026年4月24日 DeepSeek V4正式发布,昇腾超节点系列产品全面支持,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeekV4系列模型。
2026-04-24 16:00:00
04.23
19:00:00
【企业对话专场】基于CANN的xLLM推理引擎工程化落地
深入探索xLLM推理引擎在异构计算架构CANN平台上的优化实践。我们将揭秘如何利用aclgragh实现算子深度融合与图级优化,通过精细化的算子性能调优突破推理吞吐瓶颈等技术实践。无论是算法工程师还是系统架构师,都能从中获得关于软硬件协同设计的实践经验。
2026-04-23 19:00:00
04.21
19:00:00
TileLang典型算子性能优化
围绕TileLang典型算子性能优化,系统讲解核内/核间流水线、数据切分等性能优化方法论,以FA和SFA两个融合算子为例,展示算子的优化思路与效果,帮助开发者用Python DSL高效实现NPU上的高性能算子部署,大幅降低昇腾算子优化门槛。
2026-04-21 19:00:00
04.20
19:00:00
【码力全开特辑】PyPTO Tensor编程范式介绍
快速搞懂PyPTO框架!手把手教你Tensor编程范式和常用APl,轻松掌握Tensor的模型编程,小白也能快速高效完成算子开发~
2026-04-20 19:00:00
04.16
19:00:00
【企业对话专场】xLLM大模型推理优化之路
走进xLLM 的世界,系统梳理其从诞生至今的发展历程,深入解析其代码设计与核心能力。全面了解 xLLM 的整体分布式架构设计,掌握其在多节点环境下的高效调度机制与运行时优化策略,探讨xLLM 在生成式推荐这一方向上的创新实践与应用成果
2026-04-16 19:00:00
04.15
19:00:00