
lmdeploy v0.7.3 震撼发布!支持 Qwen3/DeepSeekV2/Llama4,性能碾压 Ollama/VLLM?
版本,带来多项重磅升级!本次更新不仅新增了对。团队开发的高效推理引擎)迎来。等热门模型的支持,还在。
·
LMDeploy(由 InternLM 团队开发的高效推理引擎)迎来 v0.7.3 版本,带来多项重磅升级!本次更新不仅新增了对 Qwen3、Qwen3MoE、DeepSeekV2、Llama4 等热门模型的支持,还在 Ascend NPU 上优化了 8bit 量化推理(W8A8),并大幅提升 MOE(混合专家)模型 的推理效率!
📢 核心更新亮点
-
🔥 新模型支持
- Qwen3 & Qwen3MoE:通义千问最新开源模型,MoE 架构性能更强!
- DeepSeekV2:深度求索的高效大模型,推理速度再升级!
- Llama4:Meta 新一代开源模型,LMDeploy 率先适配!
-
⚡ Ascend NPU 优化
- 支持 W8A8 低精度推理,显著降低显存占用!
- QwenVL2.5 支持 Graph 模式,推理速度更快!
- MOE 模型优化,Ascend 平台性能提升!
-
💡 功能增强
- 交互式 API 支持
spaces_between_special_tokens
,优化特殊 token 处理。 - 动态端口检测,避免端口冲突问题。
- Dynamo 模式修复,提升 PyTorch 兼容性。
- 交互式 API 支持
-
🐞 Bug 修复
- 修复 finish_reason 返回错误问题。
- 优化 MLP 激活计算,减少显存占用。
- 修复 Qwen3MoE 配置解析 问题。
🆚 LMDeploy vs. Ollama vs. VLLM:谁更强?
特性 | LMDeploy | Ollama | VLLM |
---|---|---|---|
模型支持 | ✅ Qwen3/DeepSeekV2/Llama4 | ✅ Llama/Gemma | ✅ Llama/Mistral |
推理优化 | 🔥 Ascend NPU + W8A8 + MOE | ❌ 依赖 CPU/GPU 原生推理 | ✅ PagedAttention + vLLM 引擎 |
低精度支持 | ✅ 8bit/4bit 量化 | ❌ 仅 FP16/FP32 | ✅ 8bit 量化 |
部署灵活性 | ✅ 支持 Triton/HTTP API | ✅ 本地 CLI 工具 | ✅ FastAPI + OpenAI 兼容 |
性能对比 | ⚡ Ascend 优化,MOE 加速 | 🐢 适合轻量级本地推理 | ⚡ 适合高吞吐 GPU 推理 |
结论:
- LMDeploy 在 国产芯片(Ascend)优化 和 MOE 模型支持 上优势明显,适合企业级部署。
- Ollama 适合 个人开发者 快速体验模型,但功能较简单。
- VLLM 在 GPU 高并发推理 上表现优秀,但缺少 NPU 支持。
📥 如何体验?
pip install lmdeploy==0.7.3
更多推荐
所有评论(0)