AI学习笔记：如何选择LM studio的Runtime

在LM Studio软件的“My Engines”设置中，和代表了使用不同计算资源来运行基于llama.cpp库的大语言模型，下面分别解释它们的原理和影响。

地球空间-技术小鱼

4326人浏览 · 2025-03-04 19:15:00

地球空间-技术小鱼 · 2025-03-04 19:15:00 发布

在LM Studio软件的“My Engines”设置中，cpu llama.cpp、vulkan llama.cpp 和 cuda llama.cpp 代表了使用不同计算资源来运行基于 llama.cpp 库的大语言模型，下面分别解释它们的原理和影响。

原理

cpu llama.cpp
- 这表示使用计算机的中央处理器（CPU）来运行基于 llama.cpp 实现的大语言模型。CPU 是计算机的通用计算核心，负责处理各种类型的计算任务，包括文本处理、数据运算等。llama.cpp 是一个用于在本地运行类 LLaMA 模型的轻量级实现，当选择 cpu llama.cpp 时，模型的推理过程将完全依赖 CPU 的计算能力。
vulkan llama.cpp
- Vulkan 是一种跨平台的图形和计算 API（应用程序编程接口），它允许开发者直接访问计算机的图形处理单元（GPU）进行通用计算任务。vulkan llama.cpp 意味着使用 Vulkan API 来调用 GPU 的计算资源，以加速基于 llama.cpp 的大语言模型的推理过程。这种方式可以在支持 Vulkan 的各种 GPU 上运行，包括 AMD、NVIDIA 和 Intel 的部分 GPU 。
cuda llama.cpp
- CUDA 是 NVIDIA 开发的一种并行计算平台和编程模型，它专门用于 NVIDIA GPU 的高性能计算。cuda llama.cpp 表示使用 CUDA 技术来利用 NVIDIA GPU 的强大计算能力，加速 llama.cpp 模型的推理。只有 NVIDIA 的 GPU 才支持 CUDA ，因此选择此选项需要计算机配备 NVIDIA 显卡。

影响

性能方面

计算速度
- cpu llama.cpp：CPU 的核心数量相对较少，并且其设计主要侧重于通用计算，因此在处理大语言模型的大规模矩阵运算时，速度通常较慢。特别是对于较大的模型，推理速度可能会非常缓慢，响应时间较长。
- vulkan llama.cpp：通过利用 GPU 的并行计算能力，Vulkan 可以显著提高模型的推理速度。不同的 GPU 性能差异较大，但总体而言，使用 Vulkan 加速后的推理速度会比仅使用 CPU 快很多。
- cuda llama.cpp：NVIDIA GPU 针对 CUDA 进行了优化，拥有大量的计算核心和高速内存，因此使用 CUDA 可以实现最快的推理速度。对于大规模的大语言模型，CUDA 能够充分发挥 NVIDIA GPU 的性能优势，大幅缩短响应时间。
资源占用
- cpu llama.cpp：主要占用 CPU 的计算资源和系统内存。长时间运行可能会导致 CPU 温度升高，系统资源紧张，影响其他程序的正常运行。
- vulkan llama.cpp：除了占用一定的 CPU 资源用于调度和管理外，主要占用 GPU 的显存和计算资源。不同的 GPU 显存大小不同，如果模型过大，可能会导致显存不足，影响推理性能。
- cuda llama.cpp：与 vulkan llama.cpp 类似，主要占用 NVIDIA GPU 的显存和计算资源。同样，显存大小是一个关键因素，需要确保 GPU 有足够的显存来加载和运行模型。

兼容性方面

cpu llama.cpp：兼容性最好，只要计算机有可用的 CPU 资源，就可以运行。不依赖于特定的 GPU 硬件或驱动程序，适用于各种类型的计算机。
vulkan llama.cpp：需要计算机的 GPU 支持 Vulkan API，并且安装了相应的驱动程序。大多数现代的 AMD、NVIDIA 和 Intel GPU 都支持 Vulkan，但在一些较旧的硬件上可能无法使用。
cuda llama.cpp：只能在配备 NVIDIA GPU 的计算机上使用，并且需要安装相应的 CUDA 驱动和库。对硬件和软件环境的要求较高，兼容性相对较差。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

标题：Gemini 3.1 Pro 的实时语音交互上手：边说边聊的 AI 研究伙伴

DeepSeek技术社区

从实验室到生产环境：Gemini 3.1 Pro 的部署案例分享

DeepSeek技术社区

【DeepSeek】《阮翀：从北大到DeepSeek，物理AI拓荒者的破局之路》

摘要：阮翀从北大计算语言学到DeepSeek核心研究员再到元戎启行首席科学家的成长轨迹，展现了技术人稀缺的底层逻辑思维。他在CMU期间用数学建模解决数独问题，奠定了穿透技术本质的能力；在DeepSeek深度参与多模态模型研发，完成从理论到硬件的全栈认知闭环；2026年放弃成熟领域，转向自动驾驶物理AI基础设施构建。其成长哲学强调：深挖底层逻辑而非速成、保持技术品味做减法、追求改变物理现实的使命感