lmdeploy v0.7.3 震撼发布！支持 Qwen3/DeepSeekV2/Llama4，性能碾压 Ollama/VLLM？

版本，带来多项重磅升级！本次更新不仅新增了对。团队开发的高效推理引擎）迎来。等热门模型的支持，还在。

福大大架构师每日一题

859人浏览 · 2025-04-17 07:29:48

福大大架构师每日一题 · 2025-04-17 07:29:48 发布

在这里插入图片描述

LMDeploy（由 InternLM 团队开发的高效推理引擎）迎来 v0.7.3 版本，带来多项重磅升级！本次更新不仅新增了对 Qwen3、Qwen3MoE、DeepSeekV2、Llama4 等热门模型的支持，还在 Ascend NPU 上优化了 8bit 量化推理（W8A8），并大幅提升 MOE（混合专家）模型 的推理效率！

📢 核心更新亮点

🔥 新模型支持
- Qwen3 & Qwen3MoE：通义千问最新开源模型，MoE 架构性能更强！
- DeepSeekV2：深度求索的高效大模型，推理速度再升级！
- Llama4：Meta 新一代开源模型，LMDeploy 率先适配！
⚡ Ascend NPU 优化
- 支持 W8A8 低精度推理，显著降低显存占用！
- QwenVL2.5 支持 Graph 模式，推理速度更快！
- MOE 模型优化，Ascend 平台性能提升！
💡 功能增强
- 交互式 API 支持 spaces_between_special_tokens，优化特殊 token 处理。
- 动态端口检测，避免端口冲突问题。
- Dynamo 模式修复，提升 PyTorch 兼容性。
🐞 Bug 修复
- 修复 finish_reason 返回错误问题。
- 优化 MLP 激活计算，减少显存占用。
- 修复 Qwen3MoE 配置解析 问题。

🆚 LMDeploy vs. Ollama vs. VLLM：谁更强？

特性	LMDeploy	Ollama	VLLM
模型支持	✅ Qwen3/DeepSeekV2/Llama4	✅ Llama/Gemma	✅ Llama/Mistral
推理优化	🔥 Ascend NPU + W8A8 + MOE	❌ 依赖 CPU/GPU 原生推理	✅ PagedAttention + vLLM 引擎
低精度支持	✅ 8bit/4bit 量化	❌ 仅 FP16/FP32	✅ 8bit 量化
部署灵活性	✅ 支持 Triton/HTTP API	✅ 本地 CLI 工具	✅ FastAPI + OpenAI 兼容
性能对比	⚡ Ascend 优化，MOE 加速	🐢 适合轻量级本地推理	⚡ 适合高吞吐 GPU 推理