CANN推理优化样例库

- [2026/05] HY-V3模型基于模型优化Agent（底座DeepSeek-V4-Pro），在昇腾Atlas A3系列上已完成端到端优化适配，支持推理部署。- [2026/05] Gemma4-26B-A4B / LongCat-Flash-Lite模型基于模型优化Agent，在昇腾Atlas A2/A3系列上已完成端到端优化适配，支持推理部署。- [2026/04] DeepSeek

詹梓妹Serena

378人浏览 · 2026-05-09 10:47:53

詹梓妹Serena · 2026-05-09 10:47:53 发布

cann-recipes-infer

【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

🚀Latest News

[2026/05] HY-V3模型基于模型优化Agent（底座DeepSeek-V4-Pro），在昇腾Atlas A3系列上已完成端到端优化适配，支持推理部署。
[2026/05] Gemma4-26B-A4B / LongCat-Flash-Lite模型基于模型优化Agent，在昇腾Atlas A2/A3系列上已完成端到端优化适配，支持推理部署。
[2026/04] DeepSeek-V4模型在昇腾Atlas A3系列和950PR/DT系列上已0day支持推理部署。
[2026/03] SANA-Video模型在昇腾Atlas A2系列上已支持推理部署。
[2026/03] 模型优化 Agent Skills已开源，支持 Agent 在昇腾Atlas A2/A3系列上完成端到端推理优化部署。
[2026/03] HunyuanImage-3.0模型在昇腾Atlas A2/A3系列上已支持EP推理部署方案。
[2026/03] Qwen3-8B/Qwen2.5-7B-Instruct模型在昇腾Atlas A2/A3系列上已支持推理部署。
[2026/02] GLM-5模型在昇腾Atlas A3系列上已支持推理部署。
[2026/01] Qwen3-next模型支持SGLang框架下序列并行、MTP、GDN融合算子、W8A8C8量化。
[2026/01] HSTU模型在昇腾Atlas A2系列上已支持推理部署。
[2026/01] DeepSeek-OCR-2模型在昇腾Atlas A2系列上已支持推理部署。
[2026/01] LongCat-Flash模型在昇腾Atlas A3系列上已支持Attention-FFN Disaggregation(AFD)部署模式。
[2025/12] HunyuanImage-3.0模型在昇腾Atlas A2/A3系列上已支持推理部署。
[2025/12] LongCat-Flash模型在昇腾Atlas A3系列上已支持低时延的推理部署。
[2025/12] GPT-OSS-20B/GPT-OSS-120B在昇腾Atlas A2系列上已支持推理部署。
[2025/11] Kimi-K2-Thinking模型在昇腾Atlas A3系列上已0day支持256K序列推理部署，适配原生W4A16量化。
[2025/10] DeepSeek-R1/Kimi-K2模型在昇腾Atlas A3系列上已支持低时延、高吞吐的推理部署。
[2025/10] Wan2.2-I2V模型支持Ulysses序列并行、CFG并行、VAE并行，推理代码已开源。
[2025/10] HunyuanVideo模型支持Ulysses序列并行、RingAttention序列并行、TeaCache加速，推理代码已开源。
[2025/10] DeepSeek-V3.2-Exp模型支持W8A8C8量化，量化算法和推理代码已开源。
[2025/10] Qwen3-MoE模型在昇腾Atlas A3系列上已支持推理部署。
[2025/09] DeepSeek-V3.2-Exp模型在昇腾Atlas A3系列上已0day支持推理部署。

🎉概述

cann-recipes-infer仓库旨在针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例，方便开发者简单、快速、高效地使用CANN平台进行模型推理。

✨样例列表

实践	简介
DeepSeek-V3.2-Exp	基于Transformers库，在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略，Decode阶段沿用大EP并行，同时从整网上设计了新的NPU融合Kernel和多流并行优化，实现了较高的吞吐推理性能。
Qwen3-MoE	基于Transformers库，在Atlas A3环境中完成Qwen3-235B-A22B模型的适配优化，支持TP或EP部署。
Qwen Dense (Qwen3-8B / Qwen2.5-7B-Instruct)	基于Transformers库，在Atlas A2/A3环境中完成Qwen2/Qwen3 Dense模型推理适配，通过config自动识别模型变体，使能融合算子、图模式编译、Packed Sequence（TND格式）、Page Attention等优化特性。
HunyuanVideo	基于xDiT框架，在Atlas A2环境中采用了Ulysses序列并行和RingAttention序列并行测量，同时适配了FBCache和TeaCache加速。
Wan2.2-I2V	基于Transformers库，在Atlas A2环境中完成Wan2.2-I2V模型的适配优化。
DeepSeek-R1/Kimi-K2	基于Transformers库，在Atlas A3环境中完成DeepSeek-R1/Kimi-K2模型低时延、高吞吐两种场景的适配优化，在Prefill阶段支持DP或TP+SP并行部署，在Docede阶段沿用大EP并行，同时还结合了融合算子和多流并行等优化特性。
Kimi-K2-Thinking	基于Transformers库，在Atlas A3环境中完成Kimi-K2-Thinking 256K模型部署，支持原生量化模式，MOE采用W4A16计算，Attention保留BF16精度模式。最小部署单元为单机，同时支持多机大EP部署模式。
GPT-OSS	基于Transformers库，在Atlas A2环境中完成gpt-oss模型部署，其中GPT-OSS-120B模型可以采用8卡部署，GPT-OSS-20B模型可以在单device上进行部署。
LongCat-Flash	基于Transformers库，在Atlas A3环境中完成LongCat-Flash模型低时延场景适配优化，支持TP或EP部署，使能多流并行、控核、权重预取等优化特性。
HunyuanImage-3.0	基于Transformers库，在Atlas A2/A3环境中完成HunyuanImage-3.0模型部署，支持TP和EP并行部署，使能多流并行、CFG并行、VAE并行，同时结合了融合算子、消除冗余算子等优化特性。
DeepSeek-OCR-2	基于vllm + vllm-ascend库，在Atlas A2环境中完成DeepSeek-OCR-2模型部署，支持单图、PDF文档和批量评估。
HSTU	基于RecSDK库，在Atlas A2环境中完成HSTU模型部署，支持单机单卡和单机多卡部署，使能KV Cache多级缓存管理、支持aclgraph，同时结合了hstu_paged融合算子等优化特性。
GLM-5	基于Transformers库，在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略，Decode阶段沿用大EP并行，实现了较高的吞吐推理性能。
SANA-Video	基于PyTorch框架，在Atlas A2/A3环境中完成SANA-Video模型适配和优化，使能NPU融合算子，实现较高的推理性能，支持单机单卡以及单机多卡DP部署。
DeepSeek-V4	支持Atlas A3和950PR/DT多代际昇腾芯片，兼具1M长序列推理能力与超低交互时延表现，为DeepSeek模型支持Agentic应用提供计算底座，满足千行百业灵活要求。

🏃 一站式平台快速体验

「一站式平台」是为开发者提供的 NPU 环境，内部已集成完整的 CANN 环境，可以直接使用。cann-recipes-infer 针对该平台在相应样例 README 中提供了简化的「快速启动」路径，帮助用户最小步骤完成 NPU 推理体验。当前支持的模型正在持续扩展中，敬请关注：

实践	简介
SANA-Video	基于PyTorch框架，在Atlas A2/A3环境中完成SANA-Video单卡文生视频推理，针对一站式平台场景提供简化的启动流程，帮助用户快速上手完成一次端到端 NPU 推理体验。
DeepSeek-V4	在 Atlas A3 环境中完成 DeepSeek-V4 Flash 模型的8卡推理，针对一站式平台场景提供标准启动流程和相关配置，帮助用户快速上手完成一次端到端 NPU 推理体验。

📖目录结构说明

├── docs                                        # 文档目录
|  ├── models                                   # 模型文档目录
|  |  ├── deepseek-v4                         # DeepSeek-V4相关文档
|  |  ├── deepseek-v3.2-exp                     # DeepSeek-V3.2-Exp相关文档
|  |  ├── qwen3-moe                             # Qwen3-MoE相关文档
|  |  ├── hunyuan-video                         # HunyuanVideo相关文档
|  |  ├── wan2.2-i2v                            # Wan2.2-I2V相关文档
|  |  ├── deepseek-r1                           # DeepSeek-R1相关文档
|  |  ├── kimi-k2-thinking                      # Kimi-K2-Thinking相关文档
|  |  ├── gpt-oss                               # gpt-oss相关文档
|  |  ├── longcat-flash                         # LongCat-Flash相关文档
|  |  ├── qwen                                   # Qwen Dense模型（Qwen3-8B / Qwen2.5-7B）相关文档
|  |  ├── hunyuan-image-3.0                     # HunyuanImage-3.0相关文档
|  |  ├── sana-video                            # SANA-Video相关文档
|  |  └── ...
|  └── common                                   # 公共文档目录
├── accelerator                                 # 加速算法样例
├── executor                                    # 推理执行框架
|  ├── core                                     # 配置、调度、执行引擎等核心模块
|  ├── offline                                  # 离线推理入口与执行逻辑
|  ├── online                                   # 在线推理服务、分发与worker入口
|  ├── model_loader                             # 权重加载与格式适配
|  ├── scripts                                  # 环境与测试脚本
|  ├── utils                                    # 通用工具模块
|  ├── model_runner.py                          # ModelRunner类定义
│  └── ...
├── models                                      # 模型脚本目录
|  ├── deepseek-v4                            # DeepSeek-V4的模型脚本及执行配置
|  ├── deepseek-v3.2-exp                        # DeepSeek-V3.2-Exp的模型脚本及执行配置
|  ├── qwen3_moe                                # Qwen3-MoE的模型脚本及执行配置
|  ├── qwen3-moe-sglang                         # Qwen3-MoE在sglang上的修改patch及执行配置
|  ├── hunyuan-video                            # HunyuanVideo的模型脚本及执行配置
|  ├── wan2.2-i2v                               # Wan2.2-I2V的模型脚本及执行配置
|  ├── deepseek_r1                              # DeepSeek-R1的模型脚本及执行配置
|  ├── kimi-k2-thinking                         # Kimi-K2-Thinking的模型脚本及执行配置
|  ├── gpt_oss                                  # gpt-oss的模型脚本及执行配置
|  ├── longcat-flash                            # LongCat-Flash的模型脚本及执行配置
|  ├── qwen                                     # Qwen2/Qwen3 Dense模型统一脚本及执行配置
|  ├── hunyuan-image-3.0                        # HunyuanImage-3.0的模型脚本及执行配置
|  ├── sana-video                               # SANA-Video的模型脚本及执行配置
│  └── ...
├── module                                      # Linear等基础layer的类定义
│  └── linear.py                                # Linear类定义
│  └── ...
├── ops                                         # 算子目录
|  ├── ascendc                                  # ascendc算子
|  ├── pypto                                    # pypto算子
│  └── tilelang                                 # tilelang算子
└── CONTRIBUTION.md
└── README.md
└── ...